論文の概要: InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning
- arxiv url: http://arxiv.org/abs/2601.14209v1
- Date: Tue, 20 Jan 2026 18:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.445743
- Title: InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning
- Title(参考訳): インテ:LSM推論におけるクレジット割り当てを可能にするセルフプロジェクション・インターベンション
- Authors: Matthew Y. R. Yang, Hao Bai, Ian Wu, Gene Yang, Amrith Setlur, Aviral Kumar,
- Abstract要約: アウトカム・リワード強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上に有効であることが証明された。
標準RLは最終回答のレベルにのみクレジットを割り当て、結果が正しくない場合にすべての推論トレースを罰する。
Invention Training (InT) は、モデルが独自の推論トレースに基づいてきめ細かいクレジット割り当てを行う訓練パラダイムである。
- 参考スコア(独自算出の注目度): 32.274434679047395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Outcome-reward reinforcement learning (RL) has proven effective at improving the reasoning capabilities of large language models (LLMs). However, standard RL assigns credit only at the level of the final answer, penalizing entire reasoning traces when the outcome is incorrect and uniformly reinforcing all steps when it is correct. As a result, correct intermediate steps may be discouraged in failed traces, while spurious steps may be reinforced in successful ones. We refer to this failure mode as the problem of credit assignment. While a natural remedy is to train a process reward model, accurately optimizing such models to identify corrective reasoning steps remains challenging. We introduce Intervention Training (InT), a training paradigm in which the model performs fine-grained credit assignment on its own reasoning traces by proposing short, targeted corrections that steer trajectories toward higher reward. Using reference solutions commonly available in mathematical reasoning datasets and exploiting the fact that verifying a model-generated solution is easier than generating a correct one from scratch, the model identifies the first error in its reasoning and proposes a single-step intervention to redirect the trajectory toward the correct solution. We then apply supervised fine-tuning (SFT) to the on-policy rollout up to the point of error concatenated with the intervention, localizing error to the specific step that caused failure. We show that the resulting model serves as a far better initialization for RL training. After running InT and subsequent fine-tuning with RL, we improve accuracy by nearly 14% over a 4B-parameter base model on IMO-AnswerBench, outperforming larger open-source models such as gpt-oss-20b.
- Abstract(参考訳): アウトカム・リワード強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に有効であることが証明されている。
しかし、標準RLは最終回答のレベルでのみクレジットを割り当て、結果が正しくないときにすべての推論トレースをペナルティ化し、正しい場合はすべてのステップを均一に補強する。
結果として、正しい中間ステップは失敗したトレースでは妨げられ、急進的なステップは成功したトレースでは強化される。
我々は、この障害モードをクレジット割り当ての問題として言及する。
自然な治療法は、プロセス報酬モデルをトレーニングすることであるが、そのようなモデルを正確に最適化して修正的推論ステップを特定することは、依然として困難である。
Invention Training (InT) は、モデルが自己の推論トレースに対して、より高い報酬を目標とする短期的目標修正を提案することによって、きめ細かな信用割当を行う訓練パラダイムである。
数学的推論データセットで一般的に用いられる参照解を用いて、モデル生成された解を検証することは、スクラッチから正しい解を生成するよりも容易であるという事実を利用して、モデルはその推論において最初のエラーを識別し、正しい解に向けて軌道をリダイレクトするための単一ステップの介入を提案する。
次に、監視された微調整(SFT)を、介入に伴うエラー点までロールアウトし、エラーの原因となる特定のステップにローカライズする。
得られたモデルがRLトレーニングにおいてはるかに優れた初期化を提供することを示す。
IMO-AnswerBench上の4Bパラメータベースモデルよりも14%近く精度が向上し、gpt-oss-20bのような大規模なオープンソースモデルよりも優れています。
関連論文リスト
- Can Large Reasoning Models Improve Accuracy on Mathematical Tasks Using Flawed Thinking? [0.0]
思考の連鎖(CoT)の促進は、大きな言語モデルにおける数学的推論の中心となっている。
故意に欠陥のある推論トレースのトレーニングが、そのようなエラーを検出して回復するモデルを教えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2025-12-18T21:20:21Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment [44.33395106709674]
RLVR(Reinforcement Learning with Verifiable Rewards)は、ルールベースのバイナリフィードバックを使用することで、LLM(Large Language Models)の推論能力を改善した。
現在のRLVRメソッドは、通常、すべてのトークンに同じ報酬を割り当てる。
この粗い粒度のフィードバックは、正確なクレジット割り当てを妨げ、モデルがどの推論ステップが成功または失敗につながるかを特定するのが難しくなる。
論文 参考訳(メタデータ) (2025-08-04T11:06:08Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。