論文の概要: Hierarchical Semantic RL: Tackling the Problem of Dynamic Action Space for RL-based Recommendations
- arxiv url: http://arxiv.org/abs/2510.09167v1
- Date: Fri, 10 Oct 2025 09:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.509922
- Title: Hierarchical Semantic RL: Tackling the Problem of Dynamic Action Space for RL-based Recommendations
- Title(参考訳): 階層的意味論RL:RLに基づく勧告のための動的行動空間の問題に対処する
- Authors: Minmao Wang, Xingchen Liu, Shijie Yi, Likang Wu, Hongke Zhao, Fei Pan, Qingpeng Cai, Peng Jiang,
- Abstract要約: 階層型セマンティックRL(HSRL)を導入し、固定されたセマンティックアクション空間(SAS)に対するRLに基づくレコメンデーションを再構成する。
HSRLは、ポリシー学習のためのセマンティックID(SID)としてアイテムをエンコードし、実行中に固定された可逆的なルックアップを通じてSIDを元のアイテムにマップする。
HSRLは18.421%のCVRリフトを1.251%のコストで提供し、RLベースの推奨のためのスケーラブルなパラダイムとしてHSRLをサポートする。
- 参考スコア(独自算出の注目度): 25.01398098265527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender Systems (RS) are fundamental to modern online services. While most existing approaches optimize for short-term engagement, recent work has begun to explore reinforcement learning (RL) to model long-term user value. However, these efforts face significant challenges due to the vast, dynamic action spaces inherent in recommendation, which hinder stable policy learning. To resolve this bottleneck, we introduce Hierarchical Semantic RL (HSRL), which reframes RL-based recommendation over a fixed Semantic Action Space (SAS). HSRL encodes items as Semantic IDs (SIDs) for policy learning, and maps SIDs back to their original items via a fixed, invertible lookup during execution. To align decision-making with SID generation, the Hierarchical Policy Network (HPN) operates in a coarse-to-fine manner, employing hierarchical residual state modeling to refine each level's context from the previous level's residual, thereby stabilizing training and reducing representation-decision mismatch. In parallel, a Multi-level Critic (MLC) provides token-level value estimates, enabling fine-grained credit assignment. Across public benchmarks and a large-scale production dataset from a leading Chinese short-video advertising platform, HSRL consistently surpasses state-of-the-art baselines. In online deployment over a seven-day A/B testing, it delivers an 18.421% CVR lift with only a 1.251% increase in cost, supporting HSRL as a scalable paradigm for RL-based recommendation. Our code is released at https://github.com/MinmaoWang/HSRL.
- Abstract(参考訳): Recommender Systems (RS) は現代のオンラインサービスの基本である。
既存のほとんどのアプローチは短期的エンゲージメントを最適化しているが、最近の研究は長期的ユーザ価値をモデル化するための強化学習(RL)を探求し始めている。
しかし、これらの取り組みは、政策学習の安定を妨げるリコメンデーションに固有の広大な動的行動空間のために、重大な課題に直面している。
このボトルネックを解決するために,固定されたセマンティック・アクション・スペース(SAS)に対するRLに基づくレコメンデーションを再構成する階層的セマンティック・RL(HSRL)を導入する。
HSRLは、ポリシー学習のためのセマンティックID(SID)としてアイテムをエンコードし、実行中に固定された可逆的なルックアップを通じてSIDを元のアイテムにマップする。
階層的政策ネットワーク(HPN)は、意思決定をSID生成と整合させるため、階層的残留状態モデリングを用いて、各レベルのコンテキストを前のレベルの残差から洗練し、トレーニングの安定化と表現-決定ミスマッチの低減を図る。
並行して、Multi-level Critic (MLC)はトークンレベルの値推定を提供し、きめ細かいクレジット割り当てを可能にする。
中国の大手ショートビデオ広告プラットフォームによる、公開ベンチマークと大規模なプロダクションデータセットを通じて、HSRLは一貫して最先端のベースラインを超えている。
7日間のA/Bテストによるオンラインデプロイでは、18.421%のCVRリフトと1.251%のコストアップしか提供せず、RLベースの推奨のためのスケーラブルなパラダイムとしてHSRLをサポートする。
私たちのコードはhttps://github.com/MinmaoWang/HSRL.comで公開されています。
関連論文リスト
- Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Look Beneath the Surface: Exploiting Fundamental Symmetry for
Sample-Efficient Offline RL [29.885978495034703]
オフライン強化学習(RL)は、事前にコンパイルされたデータセットからポリシーを学ぶことによって、現実世界のタスクに魅力的なアプローチを提供する。
しかし、既存のオフラインRLアルゴリズムの性能はデータセットのスケールと状態-アクション空間カバレッジに大きく依存する。
システム力学の基本対称性を活用することで、小さなデータセット下でのオフラインRL性能を大幅に向上できるという新たな知見を提供する。
論文 参考訳(メタデータ) (2023-06-07T07:51:05Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Value Penalized Q-Learning for Recommender Systems [30.704083806571074]
RLエージェントに対する累積報酬の最大化がRSの目的を満たすため、レコメンデーターシステム(RS)への強化学習のスケーリングは有望である。
この目標の重要なアプローチはオフラインのRLで、ログされたデータからポリシーを学ぶことを目的としている。
本稿では,不確実性に基づくオフラインRLアルゴリズムであるValue Penalized Q-learning (VPQ)を提案する。
論文 参考訳(メタデータ) (2021-10-15T08:08:28Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。