論文の概要: Beyond Imitation: Recovering Dense Rewards from Demonstrations
- arxiv url: http://arxiv.org/abs/2510.02493v1
- Date: Thu, 02 Oct 2025 18:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.137684
- Title: Beyond Imitation: Recovering Dense Rewards from Demonstrations
- Title(参考訳): 想像を超えて - デモからディエンス・リワードを回復する
- Authors: Jiangnan Li, Thuy-Trang Vu, Ehsan Abbasnejad, Gholamreza Haffari,
- Abstract要約: 教師付き微調整は単純な模倣学習プロセスとして扱われ、データセット上の専門家の振る舞いを模倣するポリシーを訓練するのみである。
我々は、SFTプロセスが政策を学習するだけでなく、専門家のデモンストレーションを説明する暗黙の、密集したトークンレベルの報酬モデルも示している。
Dense-Path ReINFORCEは命令追従ベンチマークにおいて、元のSFTモデルよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 64.05543657441218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventionally, supervised fine-tuning (SFT) is treated as a simple imitation learning process that only trains a policy to imitate expert behavior on demonstration datasets. In this work, we challenge this view by establishing a fundamental equivalence between SFT and Inverse Reinforcement Learning. We prove that the SFT objective is a special case of Inverse Q-Learning, which implies that the SFT process does not just learn a policy, but also an implicit, dense, token-level reward model that explains the expert demonstrations. We then show how to recover this dense reward signal directly from the SFT model by formulating a baseline-relative reward function. The availability of such a dense reward model offers numerous benefits, providing granular credit assignment for each token generated. We demonstrate one key application by using these recovered rewards to further improve the policy with reinforcement learning. Our method, Dense-Path REINFORCE, consistently outperforms the original SFT models on instruction-following benchmarks. This work reframes SFT not merely as policy imitation but as a powerful reward learning mechanism, opening new possibilities for leveraging expert demonstrations.
- Abstract(参考訳): 従来、教師付き微調整(SFT)は、実証データセットに専門家の行動を模倣するポリシーを訓練する単純な模倣学習プロセスとして扱われてきた。
本研究では,SFTと逆強化学習の基本的な等価性を確立することで,この考え方に挑戦する。
我々は、SFTの目的が逆Q-Learningの特殊な場合であることを証明し、これはSFTプロセスが政策を学ぶだけでなく、専門家のデモンストレーションを説明する暗黙の、密集したトークンレベルの報酬モデルでもあることを示唆している。
次に、ベースライン相対報酬関数を定式化することにより、SFTモデルから直接この高密度報酬信号を復元する方法を示す。
このような高密度報酬モデルの可用性は、生成されたトークンごとに詳細なクレジット代入を提供する、数多くのメリットを提供する。
得られた報酬を用いて、強化学習による政策改善を図り、一つの重要な応用例を示す。
我々の手法であるDense-Path ReINFORCEは、命令追従ベンチマークにおいて、元のSFTモデルよりも一貫して優れています。
この研究は、SFTを単なる政策模倣ではなく、強力な報酬学習メカニズムとして再編成し、専門家のデモンストレーションを活用する新たな可能性を開く。
関連論文リスト
- On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [50.30835290642069]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - From Novelty to Imitation: Self-Distilled Rewards for Offline Reinforcement Learning [7.559920170287638]
オフライン強化学習(RL)は、エージェントと環境の相互作用を余分に必要とせずに、静的データセットから効果的なポリシーを学ぶことを目的としている。
オフラインRLのための新たな報酬アノテーションフレームワークであるReLOADを提案する。
提案手法はランダムネットワーク蒸留(RND)に適応し,専門家による実験から本質的な報酬を生成する。
論文 参考訳(メタデータ) (2025-07-17T06:16:06Z) - Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling [43.835234728790795]
Prefix-RFTは、実証と探索の両方から学習を相乗化するためのハイブリッドアプローチである。
スタンドアロンの SFT と RFT の性能を上回るだけでなく、並列混合型 RFT 法よりも優れる。
論文 参考訳(メタデータ) (2025-07-02T13:04:09Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。