論文の概要: Beyond Uniform Credit: Causal Credit Assignment for Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.09331v1
- Date: Tue, 10 Feb 2026 01:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.323401
- Title: Beyond Uniform Credit: Causal Credit Assignment for Policy Optimization
- Title(参考訳): 統一クレジットを超えて-政策最適化のための因果クレジット割り当て
- Authors: Mykola Khandoga, Rui Yuan, Vinay Kumar Sankarapu,
- Abstract要約: ポリシー勾配法は、全ての生成されたトークンに均一なクレジットを割り当てる。
本稿では,マスク推論,解答確率の低下,それに伴うアップウェイトトークンの重み付けを提案する。
- 参考スコア(独自算出の注目度): 3.259050650999544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy gradient methods for language model reasoning, such as GRPO and DAPO, assign uniform credit to all generated tokens - the filler phrase "Let me think" receives the same gradient update as the critical calculation "23 + 45 = 68." We propose counterfactual importance weighting: mask reasoning spans, measure the drop in answer probability, and upweight tokens accordingly during policy gradient updates. Our method requires no auxiliary models or external annotation, instead importance is estimated directly from the policy model's own probability shifts. Experiments on GSM8K across three models spanning the Qwen and Llama families demonstrate consistent improvements over uniform baselines and faster convergence to equivalent accuracy. Inverting the importance signal hurts performance, confirming we capture genuine causal structure rather than noise. Analysis shows the method correctly prioritizes calculation steps over scaffolding text. We view these findings as establishing counterfactual importance weighting as a foundation for further research rather than a complete solution.
- Abstract(参考訳): GRPOやDAPOのような言語モデル推論のためのポリシー勾配法は、全ての生成されたトークンに均一なクレジットを割り当てる。
対策として,マスク推論,解答確率の低下,政策勾配更新に伴うアップウェイトトークンなどの重み付けを提案する。
我々の手法は補助モデルや外部アノテーションを必要としないが、代わりにポリシーモデル自身の確率シフトから直接重要度を推定する。
Qwen族とLlama族にまたがる3つのモデルにわたるGSM8Kの実験では、均一なベースラインに対する一貫した改善と等価な精度への高速収束が示されている。
重要信号の反転は性能を損なうため、ノイズではなく真の因果構造を捉える。
解析は、足場テキストよりも計算ステップを正しく優先順位付けすることを示している。
これらの知見は, 完全な解ではなく, さらなる研究の基盤として, 対実的重要度重み付けを確立するものであると考えている。
関連論文リスト
- CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。
我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。
本稿では,Anchor-based Process Reward (APR)を提案する。
論文 参考訳(メタデータ) (2026-01-31T14:53:20Z) - EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs [9.412828452977553]
既存のアプローチは成功した推論パスを強化し、かなりのキャリブレーションコストを発生させる。
この失敗は、アライメントにおけるモデル崩壊の一形態として特徴づけられている。
推論性能とキャリブレーションを協調的に最適化する訓練目標として,EpiCaRを提案する。
論文 参考訳(メタデータ) (2026-01-11T06:21:13Z) - How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。