論文の概要: Reward Weighted Classifier-Free Guidance as Policy Improvement in Autoregressive Models
- arxiv url: http://arxiv.org/abs/2604.15577v1
- Date: Thu, 16 Apr 2026 23:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.674822
- Title: Reward Weighted Classifier-Free Guidance as Policy Improvement in Autoregressive Models
- Title(参考訳): 自己回帰モデルにおける政策改善としてのリワード重み付き分類器フリーガイダンス
- Authors: Alexander Peysakhovich, William Berman,
- Abstract要約: 報酬重み付け型分類器フリーガイダンス(RCFG)が政策改善オペレータとして機能することを示す。
分子生成にRCFGを適用し、テスト時に新しい報酬関数を最適化できることを実証する。
- 参考スコア(独自算出の注目度): 46.721422245033715
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Consider an auto-regressive model that produces outputs x (e.g., answers to questions, molecules) each of which can be summarized by an attribute vector y (e.g., helpfulness vs. harmlessness, or bio-availability vs. lipophilicity). An arbitrary reward function r(y) encodes tradeoffs between these properties. Typically, tilting the model's sampling distribution to increase this reward is done at training time via reinforcement learning. However, if the reward function changes, re-alignment requires re-training. In this paper, we show that a reward weighted classifier-free guidance (RCFG) can act as a policy improvement operator in this setting, approximating tilting the sampling distribution by the Q function. We apply RCFG to molecular generation, demonstrating that it can optimize novel reward functions at test time. Finally, we show that using RCFG as a teacher and distilling into the base policy to serve as a warm start significantly speeds up convergence for standard RL.
- Abstract(参考訳): 出力x(例えば、質問への回答、分子)を出力する自己回帰モデルを考えると、それぞれが属性ベクトルy(例えば、有害性対無害性、バイオアベイラビリティ対リポフィリティー)で要約できる。
任意の報酬関数 r(y) はこれらの性質の間のトレードオフを符号化する。
通常、この報酬を増やすためにモデルのサンプリング分布を傾けることは、強化学習を通じてトレーニング時に行われる。
しかし、報酬関数が変更された場合、再調整は再訓練を必要とする。
本稿では,Q関数によるサンプリング分布の傾きを近似することにより,報酬重み付け型分類器フリーガイダンス(RCFG)が政策改善演算子として機能することを示す。
分子生成にRCFGを適用し、テスト時に新しい報酬関数を最適化できることを実証する。
最後に, RCFG を教師として使用し, 温暖化開始点として基本方針に蒸留することにより, 標準 RL の収束を著しく加速することを示す。
関連論文リスト
- Fusing Rewards and Preferences in Reinforcement Learning [24.93050534953955]
本稿では、個別の報酬とペアの好みを融合させる強化学習アルゴリズムであるDual-Feedback Actor(DFA)を提案する。
DFAはポリシーのログ確率を直接使用して好みの確率をモデル化し、別の報酬モデリングのステップを避ける。
シミュレーションの結果,生成した嗜好に基づいて訓練したDFAは,ソフトアクター・クリティカル(SAC)ポリシーを超えていることがわかった。
論文 参考訳(メタデータ) (2025-08-15T09:56:03Z) - Scalable Submodular Policy Optimization via Pruned Submodularity Graph [2.8672152503836]
強化学習(RL)では、エージェントが可能なアクションのセットを介して環境と対話し、未知の分布から報酬が生成される。
ここでの課題は、ある時間ステップ後の報酬が最大化されるような、最適な一連のアクションを見つけることである。
論文 参考訳(メタデータ) (2025-07-18T11:42:07Z) - Learning Explainable Dense Reward Shapes via Bayesian Optimization [45.34810347865996]
トークンレベルのクレジット代入に焦点をあてた最適化問題として、報酬形成の枠組みを定めている。
SHAP や LIME などの説明可能性法を用いて,報酬モデルから各報酬を推定する。
実験の結果,トークンレベルの報酬属性のバランスが良くなると,ベースラインよりもパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2025-04-22T21:09:33Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。