論文の概要: Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.01857v1
- Date: Thu, 02 Oct 2025 09:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.085157
- Title: Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習によるエキスパートデモから高密度推論リワードモデルを学ぶ
- Authors: Claudio Fanconi, Nicolás Astorga, Mihaela van der Schaar,
- Abstract要約: 我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
- 参考スコア(独自算出の注目度): 50.20267980386502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We reframe and operationalise adversarial inverse reinforcement learning (IRL) to large language model reasoning, learning a dense, token-level reward model for process supervision directly from expert demonstrations rather than imitating style via supervised fine-tuning. The learned reasoning reward serves two complementary roles: (i) it provides step-level feedback to optimise a reasoning policy during training; and (ii) it functions at inference as a critic to rerank sampled traces under fixed compute budgets. We demonstrate that our approach prioritises correctness over surface form, yielding scores that correlate with eventual answer validity and enabling interpretable localisation of errors within a trace. Empirically, on GSM8K with Llama3 and Qwen2.5 backbones, we demonstrate: (i) dense reasoning rewards can be used as a learning signal to elicit reasoning, and (ii) predictive performance is improved from reward-guided reranking (notably for Llama-based policies). By unifying training signals, inference-time selection, and token-level diagnostics into a single reasoning reward, this work suggests reusable process-level rewards with broad potential to enhance multi-step reasoning in language models.
- Abstract(参考訳): 逆逆強化学習(IRL)を大規模言語モデル推論に再編成・運用し、教師付き微調整によりスタイルを模倣するのではなく、専門家による実証からプロセス監視のための高密度なトークンレベルの報酬モデルを直接学習する。
学習した推論報酬は2つの補完的な役割を果たす。
一 訓練中の推論方針を最適化するための段階的なフィードバックを提供すること。
(II)定額計算予算の下で、サンプルトレースを再引用する批評家として、推論で機能する。
提案手法は, 表面形状よりも正確さを優先し, 結果の正解率と相関するスコアを導出し, トレース内における誤りの解釈的局所化を可能にすることを実証する。
経験的に、Llama3とQwen2.5のバックボーンを持つGSM8Kでは、以下のことが示される。
(i)深い推論報酬を推論を導き出すための学習信号として用いることができ、
(II)報酬誘導によるリランク(特にLlamaベースのポリシー)により予測性能が向上する。
トレーニング信号、推論時間選択、トークンレベルの診断を単一の推論報酬に統一することにより、この研究は、言語モデルにおける多段階推論を強化する幅広い可能性を持つ再利用可能なプロセスレベルの報酬を提案する。
関連論文リスト
- Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards [48.55501117313608]
本稿では,視覚言語モデルにおけるステップ推論の連鎖について述べる。
ステップレベルの推論データ、プロセス報酬モデル(PRM)、強化学習トレーニングを含む、シンプルで効果的で完全に透明なフレームワークを提案する。
本稿では、視覚言語モデルのベースラインとして機能し、より複雑なマルチモーダル推論に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-09-23T13:47:32Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - StepWiser: Stepwise Generative Judges for Wiser Reasoning [52.32416311990343]
プロセス報酬モデルは、ステップバイステップのフィードバックを提供することによって、この問題に対処する。
近年の進歩に触発されて、分類タスクから推論タスク自体への段階的な報酬モデリングを再構築しました。
既存の手法よりも中間段階の精度が向上し, (ii) 訓練時の政策モデルの改善に利用でき, (iii) 推論時探索の改善が図られている。
論文 参考訳(メタデータ) (2025-08-26T17:45:05Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。