論文の概要: Beyond Imitation: Recovering Dense Rewards from Demonstrations
- arxiv url: http://arxiv.org/abs/2510.02493v1
- Date: Thu, 02 Oct 2025 18:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.137684
- Title: Beyond Imitation: Recovering Dense Rewards from Demonstrations
- Title(参考訳): 想像を超えて - デモからディエンス・リワードを回復する
- Authors: Jiangnan Li, Thuy-Trang Vu, Ehsan Abbasnejad, Gholamreza Haffari,
- Abstract要約: 教師付き微調整は単純な模倣学習プロセスとして扱われ、データセット上の専門家の振る舞いを模倣するポリシーを訓練するのみである。
我々は、SFTプロセスが政策を学習するだけでなく、専門家のデモンストレーションを説明する暗黙の、密集したトークンレベルの報酬モデルも示している。
Dense-Path ReINFORCEは命令追従ベンチマークにおいて、元のSFTモデルよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 64.05543657441218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventionally, supervised fine-tuning (SFT) is treated as a simple imitation learning process that only trains a policy to imitate expert behavior on demonstration datasets. In this work, we challenge this view by establishing a fundamental equivalence between SFT and Inverse Reinforcement Learning. We prove that the SFT objective is a special case of Inverse Q-Learning, which implies that the SFT process does not just learn a policy, but also an implicit, dense, token-level reward model that explains the expert demonstrations. We then show how to recover this dense reward signal directly from the SFT model by formulating a baseline-relative reward function. The availability of such a dense reward model offers numerous benefits, providing granular credit assignment for each token generated. We demonstrate one key application by using these recovered rewards to further improve the policy with reinforcement learning. Our method, Dense-Path REINFORCE, consistently outperforms the original SFT models on instruction-following benchmarks. This work reframes SFT not merely as policy imitation but as a powerful reward learning mechanism, opening new possibilities for leveraging expert demonstrations.
- Abstract(参考訳): 従来、教師付き微調整(SFT)は、実証データセットに専門家の行動を模倣するポリシーを訓練する単純な模倣学習プロセスとして扱われてきた。
本研究では,SFTと逆強化学習の基本的な等価性を確立することで,この考え方に挑戦する。
我々は、SFTの目的が逆Q-Learningの特殊な場合であることを証明し、これはSFTプロセスが政策を学ぶだけでなく、専門家のデモンストレーションを説明する暗黙の、密集したトークンレベルの報酬モデルでもあることを示唆している。
次に、ベースライン相対報酬関数を定式化することにより、SFTモデルから直接この高密度報酬信号を復元する方法を示す。
このような高密度報酬モデルの可用性は、生成されたトークンごとに詳細なクレジット代入を提供する、数多くのメリットを提供する。
得られた報酬を用いて、強化学習による政策改善を図り、一つの重要な応用例を示す。
我々の手法であるDense-Path ReINFORCEは、命令追従ベンチマークにおいて、元のSFTモデルよりも一貫して優れています。
この研究は、SFTを単なる政策模倣ではなく、強力な報酬学習メカニズムとして再編成し、専門家のデモンストレーションを活用する新たな可能性を開く。
関連論文リスト
- Discovering Process-Outcome Credit in Multi-Step LLM Reasoning [3.584086358722852]
強化学習(RL)は、大規模言語モデル(LLM)における推論能力を高めるための強力なパラダイムとして機能する。
本稿では,連続的な報酬信号を提供するための新しいフレームワークを提案する。
本モデルでは, 予測できない, 難解な推論タスクに対して, ゼロショット転送能力を実証し, より優れた配当性を示す。
論文 参考訳(メタデータ) (2026-02-01T05:44:09Z) - Online SFT for LLM Reasoning: Surprising Effectiveness of Self-Tuning without Rewards [24.382221008037188]
LLM推論のための自己ヘルプ型オンライン教師付き微調整(OSFT)パラダイムを提案する。
OSFTは、LLM推論のための非常に効率的なトレーニング戦略である。
我々はOSFTがより複雑で報酬ベースのトレーニングパラダイムに代わる効率的で有望な代替手段を提供すると考えている。
論文 参考訳(メタデータ) (2025-10-21T17:15:56Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [50.30835290642069]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - From Novelty to Imitation: Self-Distilled Rewards for Offline Reinforcement Learning [7.559920170287638]
オフライン強化学習(RL)は、エージェントと環境の相互作用を余分に必要とせずに、静的データセットから効果的なポリシーを学ぶことを目的としている。
オフラインRLのための新たな報酬アノテーションフレームワークであるReLOADを提案する。
提案手法はランダムネットワーク蒸留(RND)に適応し,専門家による実験から本質的な報酬を生成する。
論文 参考訳(メタデータ) (2025-07-17T06:16:06Z) - Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling [43.835234728790795]
Prefix-RFTは、実証と探索の両方から学習を相乗化するためのハイブリッドアプローチである。
スタンドアロンの SFT と RFT の性能を上回るだけでなく、並列混合型 RFT 法よりも優れる。
論文 参考訳(メタデータ) (2025-07-02T13:04:09Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。
本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。
本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文 参考訳(メタデータ) (2025-02-26T20:50:11Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。