論文の概要: Hidden States Know Where Reasoning Diverges: Credit Assignment via Span-Level Wasserstein Distance
- arxiv url: http://arxiv.org/abs/2604.23318v1
- Date: Sat, 25 Apr 2026 14:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.267208
- Title: Hidden States Know Where Reasoning Diverges: Credit Assignment via Span-Level Wasserstein Distance
- Title(参考訳): 身元不明の国:Span-Level Wasserstein距離を通したクレジット・アサインメント
- Authors: Xinzhu Chen, Wei He, Huichuan Fan, Wenzhe Niu, Zhongxiang Sun, Xuanru Wang, Jiuchong Gao, Jinghua Hao, Renqing He, Weijie Yu,
- Abstract要約: 隠れ状態分布は局所的推論品質に有用な信号を含むことを示す。
各GRPO群では, 局所的推論品質が変動する領域を中心に, スパンレベル隠れ状態分布間のワッサースタイン距離が増加する。
textbfSpan-level textbfHidden state textbfEd textbfAdvantage textbfReweightingを提案する。
- 参考スコア(独自算出の注目度): 8.66471442661456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group Relative Policy Optimization (GRPO) performs coarse-grained credit assignment in reinforcement learning with verifiable rewards (RLVR) by assigning the same advantage to all tokens in a rollout. Process reward models can provide finer-grained supervision, but they require step-level annotation or additional reward modeling. We show that hidden-state distributions contain a useful signal for local reasoning quality that can be extracted using only outcome-level correctness labels available in RLVR. Specifically, within each GRPO group, the Wasserstein distance between span-level hidden state distributions of correct and incorrect rollouts increases around regions where their local reasoning quality diverges. This association holds both across examples and within individual trajectories, suggesting that hidden-state distributional divergence can serve as a self-supervision signal for fine-grained credit assignment. We formalize this observation with a separation theorem showing that, under mild structural assumptions, post-divergence spans have larger Wasserstein distances than pre-divergence spans whenever the population-level distributional gap exceeds finite-sample noise. Motivated by this result, we propose \textbf{S}pan-level \textbf{H}idden state \textbf{E}nabled \textbf{A}dvantage \textbf{R}eweighting (SHEAR), which modifies GRPO by using span-level Wasserstein distances to scale token-level advantages, amplifying updates on tokens whose hidden states are more separated from the opposing group. The method requires no additional model and only minimal changes to the training pipeline. Experiments on five mathematical reasoning benchmarks and five code generation benchmarks show improvements over standard GRPO and strong performance relative to supervised process reward models, while requiring no additional annotation or reward model training.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、ロールアウト中の全てのトークンに同じ利点を割り当てることにより、検証可能な報酬(RLVR)を伴う強化学習において粗粒度のクレジット割り当てを行う。
プロセス報酬モデルはよりきめ細かい監督を提供することができるが、ステップレベルのアノテーションや追加の報酬モデリングが必要である。
隠れ状態分布は、RLVRで利用可能な結果レベルの正当性ラベルのみを用いて抽出できる局所的推論品質の有用な信号を含むことを示す。
具体的には,各GRPO群では, 局所的推論品質が変動する領域を中心に, 正しいロールアウトと不正確なロールアウトのスパンレベル隠れ状態分布間のワッサースタイン距離が増加する。
この協会は、実例と個々の軌跡の両方を包含しており、隠れ状態の分布のばらつきは、きめ細かい信用代入のための自己超越信号として機能することを示唆している。
分離定理を用いてこの観測を定式化し, 集団レベルの分布ギャップが有限サンプルノイズを超えると, 偏差後スパンは偏差前スパンよりも大きなワッサーシュタイン距離を持つことを示した。
この結果から,トークンレベルの利点を拡大するために,スパンレベルのワッサースタイン距離を用いてGRPOを修飾し,隠れ状態がより分離されたトークンの更新を増幅する,Sharedbf{E}nabled \textbf{A}dvantage \textbf{R}eweighting (SHEAR)を提案する。
このメソッドには追加のモデルが不要で、トレーニングパイプラインの変更は最小限である。
5つの数学的推論ベンチマークと5つのコード生成ベンチマークの実験は、標準的なGRPOよりも改善され、教師付きプロセス報酬モデルと比較して高いパフォーマンスを示し、追加のアノテーションや報酬モデルトレーニングは不要である。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - When Right Meets Wrong: Bilateral Context Conditioning with Reward-Confidence Correction for GRPO [18.988527161000203]
グループ相対政策最適化(GRPO)は、推論モデルを訓練するための効果的な方法として登場した。
本稿では,GRPOの目的が正解率と正解率とのマージンを暗黙的に最大化することを示す。
本稿では,モデルが相互参照を成功させる機構であるバイラテラルコンテキストコンディショニング(BICC)を提案する。
論文 参考訳(メタデータ) (2026-03-13T16:25:02Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - SimGR: Escaping the Pitfalls of Generative Decoding in LLM-based Recommendation [68.00727783181289]
推薦システムの中核的な目的は、パーソナライズされたレコメンデーションを可能にするために、アイテムよりもユーザの好みの分布を正確にモデル化することである。
アイテムレベルの嗜好分布を推定する際に,既存の手法が必然的に系統的バイアスを生じさせることを観察する。
textbfSimply textbfGenerative textbfRecommendation (textbfSimGR)を提案する。
論文 参考訳(メタデータ) (2026-02-08T07:26:52Z) - Owen-Shapley Policy Optimization (OSPO): A Principled RL Algorithm for Generative Search LLMs [12.75200353208858]
Owen-Shapley Policy Optimization (OSPO)は、トークンの成果に対する限界貢献に基づいて、シーケンスレベルの利点を再分配するフレームワークである。
付加的な計算を必要とする値モデルベースの方法とは異なり、OSPOはセグメントレベルのクレジットを割り当てるためにShapley-Owen属性を介して潜在的ベースの報酬シェーピングを採用する。
Amazon ESCIとH&M Fashionデータセットの実験は、ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-13T10:17:46Z) - Beyond Majority Voting: Towards Fine-grained and More Reliable Reward Signal for Test-Time Reinforcement Learning [12.354777054071379]
テスト時間強化学習は、多数決結果を擬似ラベルとして使用することにより、注釈付きデータへの依存を軽減する。
この投票戦略は、しばしば確認バイアスを引き起こし、スパース報酬に悩まされ、全体的なパフォーマンスが制限される。
これらの問題に対処するために,サブグループ固有のステップワイド信頼度重み付き擬似ラベル推定(SCOPE)を提案する。
論文 参考訳(メタデータ) (2025-12-17T07:21:54Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - Submodular Reinforcement Learning [38.40138241424851]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。