論文の概要: A Pre-Registered Causal Partition of Self-Consistency Elicitation and Reward Design in RLVR
- arxiv url: http://arxiv.org/abs/2606.05932v1
- Date: Thu, 04 Jun 2026 09:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.697011
- Title: A Pre-Registered Causal Partition of Self-Consistency Elicitation and Reward Design in RLVR
- Title(参考訳): RLVRにおける自己整合性除去とリワード設計の予備登録因数分割
- Authors: Yuze Gao,
- Abstract要約: 報酬からの強化学習は、報酬信号が刺激的であっても推論を改善する。
実践者は一般的に、報酬-設計効果として naive = acc(TRUE) - acc(R) を解釈する。
我々はこの推定が体系的に偏っていることを証明している。
- 参考スコア(独自算出の注目度): 1.2958054117511815
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning from verifiable rewards (RLVR) improves reasoning even when the reward signal is spurious -- assigning credit to the group-plurality answer rather than a ground-truth verifier. Practitioners commonly interpret naive = acc(TRUE) - acc(RANDOM) as the reward-design effect. We prove this estimand is systematically biased: it conflates self-consistency elicitation (sharpening the policy toward its modal answer via majority pseudo-reward) with genuine reward-design signal. Using a controlled tabular-GRPO simulator we derive an exact telescoping decomposition total = null + elicit + rd and measure each term across five prior-strength levels. The reward-design fraction of the naive estimator ranges from 0.139 at weak prior (ps=0.20) to 0.05 at strong prior (ps=0.80), with the elicitation term flipping sign at the self-consistency crossover. A pre-registered 2x2x2 factorial confirms non-additivity (interaction ratio 0.385; AxC effect -0.089). A points-vs-bounds pilot gate shows strong-prior regimes are point-identified while near-crossover regimes are only bounded. Re-audits of two named published results yield ELICITATION DOMINATED (elicitation share 0.98) and REWARD DESIGN DOMINATED (rd share 1.18) verdicts respectively, demonstrating the diagnostic value of the partition. We pre-commit to submit regardless of flip outcome; a non-flip is a finding of equal standing. We release a reusable one-command harness for any alignment paper to run the same audit.
- Abstract(参考訳): 検証可能な報酬(RLVR)からの強化学習は、報酬信号が刺激的であっても推論を改善します。
実践者は一般的に、報酬-設計効果として naive = acc(TRUE) - acc(RANDOM) を解釈する。
我々は、この推定値が体系的に偏りがあることを証明し、真の報酬設計信号で自己整合性推論(大多数の疑似回帰を通じて、ポリシーをモーダルな回答に適合させる)を混同する。
制御された表-GRPOシミュレータを用いて、正確なテレスコープ分解総数 = null + elicit + rd を導出し、各項を5つの事前強度レベルにわたって測定する。
ナイーブ推定器の報酬-設計割合は弱前(ps=0.20)の0.139から強前(ps=0.80)の0.05までで、自己整合のクロスオーバーでは利得項が反転する。
予め登録された2x2x2因子は非添加性(相互作用比0.385; AxC効果0.089)を確認する。
ポイントvsバウンドのパイロットゲートは、強いプリア・レジームがポイント識別され、ほぼクロスオーバー・レジームがバウンドであることを示している。
2つの名前を冠した結果のオーディットは、ELICITATION DOMINATED (elicitation share 0.98) と REWARD DESIGN DOMINATED (rd share 1.18) のそれぞれを判定し、分割の診断値を示す。
我々は、フリップの結果にかかわらず、提出を事前に約束する。
同じ監査を行うために,任意のアライメント用紙に対して再利用可能なワンコマンドハーネスをリリースする。
関連論文リスト
- Right Makes Might: Aligning Verified Hidden States Empowers RL Reasoning [55.264863369127774]
現在の方法では、それぞれの正しいロールアウトを単一の報酬ビットに減らし、隠れた状態間で共有される幾何学的構造を無視している。
本稿では,RLトレーニングにおけるアンカートークンにおける正ロールアウトの最終層を,トレーニングと推論の両方においてゼロオーバーヘッドで整列する補助損失関数Hidden-Alignを提案する。
8つの数学的推論ベンチマークでは、Hidden-AlignはDAPOベースラインの平均パス@1をQwen3-1.7B, 4B, 14Bで3.8, 6.2, 5.4ポイント改善し、3つのスケールで一貫したパス@kゲインを得る。
論文 参考訳(メタデータ) (2026-06-02T06:51:15Z) - The Cancellation Hypothesis in Critic-Free RL: From Outcome Rewards to Token Credits [56.379030343338776]
トークンレベルでの批判フリーなRLについて検討し,トークンフライング現象を明らかにした。
トークンの確率変化は、それ自身の利点によって完全に決定されないことを示し、他のトークンとの結合勾配相互作用も無視できない役割を担っている。
論文 参考訳(メタデータ) (2026-05-09T04:07:20Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Quantile Advantage Estimation for Entropy-Safe Reasoning [44.192277495613695]
RLVRによる強化学習はLLM推論を強化するが、エントロピー崩壊とエントロピー爆発の間のトレーニングはしばしば振動する
いずれのハザードも値のないRLで使われる平均ベースラインに辿り着くが、これは不適切に報酬のアウトリージの下で負のアドバンテージサンプルをペナルティ化する。
本稿では,平均値をグループ単位のK量子基底線に置き換えた量子アドバンテージ推定(QAE)を提案する。
論文 参考訳(メタデータ) (2025-09-26T17:37:52Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - TRUST-LAPSE: An Explainable and Actionable Mistrust Scoring Framework
for Model Monitoring [4.262769931159288]
連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。
我々は,各入力サンプルのモデル予測の信頼性を,潜時空間埋め込みのシーケンスを用いて評価する。
AUROCs 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs)
論文 参考訳(メタデータ) (2022-07-22T18:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。