論文の概要: Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards
- arxiv url: http://arxiv.org/abs/2506.20520v1
- Date: Wed, 25 Jun 2025 15:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.806604
- Title: Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards
- Title(参考訳): オフポリティ強化学習のための非対称ReINFORCE:正と負の報酬のバランスをとる
- Authors: Charles Arnal, Gaëtan Narozniak, Vivien Cabannes, Yunhao Tang, Julia Kempe, Remi Munos,
- Abstract要約: オフポリシーRLと教師付き微調整の中間領域のアルゴリズムについて検討する。
まず、このオフポリティREINFORCEアルゴリズムの理論的解析を行う。
我々の分析によると、オンライン更新はポジティブな信号とネガティブな信号の両方を安全に活用できるが、オフライン更新は、ネガティブな信号よりもポジティブな報酬にフォーカスすることの恩恵を受ける。
- 参考スコア(独自算出の注目度): 17.695285420477035
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning (RL) is increasingly used to align large language models (LLMs). Off-policy methods offer greater implementation simplicity and data efficiency than on-policy techniques, but often result in suboptimal performance. In this work, we study the intermediate range of algorithms between off-policy RL and supervised fine-tuning by analyzing a simple off-policy REINFORCE algorithm, where the advantage is defined as $A=r-V$, with $r$ a reward and $V$ some tunable baseline. Intuitively, lowering $V$ emphasizes high-reward samples, while raising it penalizes low-reward ones more heavily. We first provide a theoretical analysis of this off-policy REINFORCE algorithm, showing that when the baseline $V$ lower-bounds the expected reward, the algorithm enjoys a policy improvement guarantee. Our analysis reveals that while on-policy updates can safely leverage both positive and negative signals, off-policy updates benefit from focusing more on positive rewards than on negative ones. We validate our findings experimentally in a controlled stochastic bandit setting and through fine-tuning state-of-the-art LLMs on reasoning tasks.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の整合化にますます用いられる。
オフ・ポリティィ・メソッドは、オン・ポリティィ・テクニックよりも実装の単純さとデータ効率が向上するが、しばしば準最適性能をもたらす。
本研究では, 簡単なオフポリチィREINFORCEアルゴリズムを解析することにより, オフポリチィRLと教師付き微調整の中間範囲を解析し, その利点を$A=r-V$, $r$ a reward, $V$ a tunable baselineと定義する。
直感的には、$V$を下げることによって、高いリワードサンプルが強調される一方で、低いリワードサンプルがより多くペナルティ化される。
まず、このオフポリティなREINFORCEアルゴリズムの理論的解析を行い、ベースライン$V$が期待される報酬を下限にすると、アルゴリズムはポリシー改善の保証を享受することを示した。
我々の分析によると、オンライン更新はポジティブな信号とネガティブな信号の両方を安全に活用できるが、オフライン更新は、ネガティブな信号よりもポジティブな報酬にフォーカスすることの恩恵を受ける。
本研究は,制御された確率的バンディット設定および推論タスクの微調整により実験的に検証した。
関連論文リスト
- Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion [43.77763433288893]
コントラストポリシーグラディエント(Contrastive Policy Gradient, COPG)は、単純かつ数学的に原理化された新しいRLアルゴリズムである。
本稿では,直接アライメント手法のIPO(アイデンティティ優先最適化)と古典的政策勾配を一般化する手法を提案する。
提案したCOPGをおもちゃのバンディット問題で実験し,その特性を説明するとともに,要約タスクでLLMを微調整する。
論文 参考訳(メタデータ) (2024-06-27T14:03:49Z) - Provably Efficient Off-Policy Adversarial Imitation Learning with Convergence Guarantees [12.427664781003463]
本研究では, 外部AILアルゴリズムの収束特性とサンプル複雑性について検討する。
重要サンプリング補正がなくても、$o(sqrtK)$直近のポリシーで生成されたサンプルを再利用しても収束保証を損なわないことを示す。
論文 参考訳(メタデータ) (2024-05-26T19:17:32Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。