Fugu-MT 論文翻訳(概要): RL-MPCA: A Reinforcement Learning Based Multi-Phase Computation Allocation Approach for Recommender Systems

論文の概要: RL-MPCA: A Reinforcement Learning Based Multi-Phase Computation Allocation Approach for Recommender Systems

arxiv url: http://arxiv.org/abs/2401.01369v1
Date: Wed, 27 Dec 2023 12:40:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 09:53:59.881820
Title: RL-MPCA: A Reinforcement Learning Based Multi-Phase Computation Allocation Approach for Recommender Systems
Title（参考訳）: RL-MPCA:Recommenderシステムのための強化学習に基づく多相計算割当手法
Authors: Jiahong Zhou, Shunhui Mao, Guoliang Yang, Bo Tang, Qianlong Xie, Lebin Lin, Xingxing Wang, Dong Wang
Abstract要約: 計算リソースの制限の下では、計算コストとビジネス収益の間のトレードオフをどのように行うかが不可欠である。本稿では,強化学習に基づく多相計算割当手法(RL-MPCA)を提案する。具体的には、RL-MPCAは様々なCR割り当てシナリオに対応するために、新しいQ-networkを設計する。
参考スコア（独自算出の注目度）: 9.506615552784192
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recommender systems aim to recommend the most suitable items to users from a large number of candidates. Their computation cost grows as the number of user requests and the complexity of services (or models) increases. Under the limitation of computation resources (CRs), how to make a trade-off between computation cost and business revenue becomes an essential question. The existing studies focus on dynamically allocating CRs in queue truncation scenarios (i.e., allocating the size of candidates), and formulate the CR allocation problem as an optimization problem with constraints. Some of them focus on single-phase CR allocation, and others focus on multi-phase CR allocation but introduce some assumptions about queue truncation scenarios. However, these assumptions do not hold in other scenarios, such as retrieval channel selection and prediction model selection. Moreover, existing studies ignore the state transition process of requests between different phases, limiting the effectiveness of their approaches. This paper proposes a Reinforcement Learning (RL) based Multi-Phase Computation Allocation approach (RL-MPCA), which aims to maximize the total business revenue under the limitation of CRs. RL-MPCA formulates the CR allocation problem as a Weakly Coupled MDP problem and solves it with an RL-based approach. Specifically, RL-MPCA designs a novel deep Q-network to adapt to various CR allocation scenarios, and calibrates the Q-value by introducing multiple adaptive Lagrange multipliers (adaptive-$\lambda$) to avoid violating the global CR constraints. Finally, experiments on the offline simulation environment and online real-world recommender system validate the effectiveness of our approach.
Abstract（参考訳）: 推薦システムは、多数の候補から最も適したアイテムをユーザに推薦することを目的としている。ユーザリクエストの数とサービス(あるいはモデル)の複雑さの増加に伴い、計算コストが増加する。計算資源(crs)の限界の下では、計算コストと事業収益のトレードオフをいかに行うかが重要な問題となる。既存の研究では、キュートランケーションシナリオにおけるCRを動的に割り当てること(すなわち、候補のサイズを割り当てること)に焦点を当て、制約付き最適化問題としてCR割り当て問題を定式化する。そのうちのいくつかは単一フェーズのCRアロケーションにフォーカスするが、他のものはマルチフェーズのCRアロケーションにフォーカスするが、キューのトランケーションシナリオに関するいくつかの仮定を導入する。しかし、これらの仮定は検索チャネルの選択や予測モデルの選択といった他のシナリオには当てはまらない。さらに、既存研究では異なるフェーズ間の要求の状態遷移プロセスを無視し、アプローチの有効性を制限している。本稿では,crsの制約下での事業収益を最大化することを目的とした強化学習(rl)に基づく多相計算割当手法(rl-mpca)を提案する。 RL-MPCAは、CR割り当て問題を弱結合MDP問題として定式化し、RLベースのアプローチで解決する。具体的には、RL-MPCAは、様々なCR割り当てシナリオに適応する新しいQ-ネットワークを設計し、グローバルCR制約に違反しないように複数の適応ラグランジュ乗算器(adaptive-$\lambda$)を導入してQ-値を校正する。最後に、オフラインシミュレーション環境とオンラインリアルタイムレコメンデータシステムによる実験を行い、本手法の有効性を検証した。

関連論文リスト

Deep RL Dual Sourcing Inventory Management with Supply and Capacity Risk Awareness [4.583289433858458]
介入モデルを利用して大規模最適化問題に強化学習(RL)を効率的に適用する方法を検討する。我々は,サプライチェーン最適化におけるマルチソース多周期在庫管理問題である,現実世界の挑戦的アプリケーションに対するアプローチを実証する。
論文参考訳（メタデータ） (2025-07-19T02:44:45Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。 DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文参考訳（メタデータ） (2024-12-24T08:39:35Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
LLM-enhanced Reranking in Recommender Systems [49.969932092129305]
リグレードはレコメンデーションシステムにおいて重要な要素であり、レコメンデーションアルゴリズムの出力を精査する上で重要な役割を果たす。そこで我々は,様々な格付け基準をシームレスに統合する包括的格付けフレームワークを提案する。カスタマイズ可能な入力機構も統合されており、言語モデルのフォーカスを特定の再配置のニーズに合わせることができる。
論文参考訳（メタデータ） (2024-06-18T09:29:18Z)
An Efficient Approach for Solving Expensive Constrained Multiobjective Optimization Problems [0.0]
効率的な確率的選択に基づく制約付き多目的EAをPSCMOEAと呼ぶ。 a) 評価された解の実現可能性と収束状態に基づく適応探索境界同定スキームのような新しい要素を含む。 ECMOPを模擬する低評価予算を用いて, 幅広い制約付き問題に対して, 数値実験を行った。
論文参考訳（メタデータ） (2024-05-22T02:32:58Z)
Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文参考訳（メタデータ） (2024-05-16T17:58:44Z)
CTD4 -- A Deep Continuous Distributional Actor-Critic Agent with a Kalman Fusion of Multiple Critics [2.229467987498053]
CDRL(Categorical Distributional Reinforcement Learning)は,複雑なタスクの学習において,より優れたサンプル効率を示す。本稿では,連続行動空間に適した連続分布モデル自由RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-04T05:38:38Z)
Retentive Decision Transformer with Adaptive Masking for Reinforcement Learning based Recommendation Systems [17.750449033873036]
Reinforcement Learning-based Recommender Systems (RLRS) は、様々なアプリケーションで約束されている。しかし彼らは、特に報酬関数の作成や、既存の大規模なデータセットの活用など、課題に悩まされている。オフラインRLRSの最近の進歩は、これらの2つの課題に対処するためのソリューションを提供する。
論文参考訳（メタデータ） (2024-03-26T12:08:58Z)
Towards Deployment-Efficient Reinforcement Learning: Lower Bound and Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文参考訳（メタデータ） (2022-02-14T01:31:46Z)
Value Penalized Q-Learning for Recommender Systems [30.704083806571074]
RLエージェントに対する累積報酬の最大化がRSの目的を満たすため、レコメンデーターシステム(RS)への強化学習のスケーリングは有望である。この目標の重要なアプローチはオフラインのRLで、ログされたデータからポリシーを学ぶことを目的としている。本稿では,不確実性に基づくオフラインRLアルゴリズムであるValue Penalized Q-learning (VPQ)を提案する。
論文参考訳（メタデータ） (2021-10-15T08:08:28Z)
CRPO: A New Approach for Safe Reinforcement Learning with Convergence Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文参考訳（メタデータ） (2020-11-11T16:05:14Z)
Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。 CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文参考訳（メタデータ） (2020-06-26T17:50:26Z)
Deep Reinforcement Learning for QoS-Constrained Resource Allocation in Multiservice Networks [0.3324986723090368]
本稿では、マルチサービス無線システムにおける満足度保証に対するスペクトル効率の最大化を主な目的とする非最適化問題に焦点をあてる。本稿では,Reinforcement Learning (RL) フレームワークに基づくソリューションを提案し,各エージェントがローカル環境とのインタラクションによってポリシーを見つける決定を行う。スループットと停止率の観点から、後者のほぼ最適性能を示す。
論文参考訳（メタデータ） (2020-03-03T19:32:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。