論文の概要: Detecting and Mitigating the Correct-Answer Extinction Window in Test-Time Reinforcement Learning with Majority Voting
- arxiv url: http://arxiv.org/abs/2605.19444v2
- Date: Wed, 27 May 2026 03:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:54.767789
- Title: Detecting and Mitigating the Correct-Answer Extinction Window in Test-Time Reinforcement Learning with Majority Voting
- Title(参考訳): 多数投票によるテスト時間強化学習における正解窓の検出と修正
- Authors: Hongxiang Lin, Zhirui Kuai, Erpeng Xue, Lei Wang,
- Abstract要約: テスト時間強化学習 (TTRL) は, 多数決を擬似ラベル信号として用いた数学的推論ベンチマークにおいて, かなりの精度向上を報告している。
textitCorrect-Answer Extinction Windowをターゲットにした3つのメカニズムを持つ軽量フレームワークであるTTRL-Guardを提案する。
3つのモデルと4つのベンチマーク実験により、TTRL-GuardはQwen2.5-7B-InstructとQwen3-4Bで最高平均パス@1を達成し、AIME 2025では+54%改善した。
- 参考スコア(独自算出の注目度): 4.336665585098371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time reinforcement learning (TTRL) reports substantial accuracy gains on mathematical reasoning benchmarks using majority vote as a pseudo-label signal. We argue these gains are systematically misinterpreted: most reflect sharpening of already-solvable problems rather than genuine learning, while problems corrupted from correct to incorrect outnumber truly learned ones, and this damage is irreversible once majority vote locks onto a wrong answer. Per-problem tracking reveals that correct-answer signals in low-ability problems are briefly active before being permanently suppressed, a phenomenon we term the \textit{Correct-Answer Extinction Window}, with Flip Rate (FR) as its leading indicator. We thus propose TTRL-Guard, a lightweight framework with three mechanisms targeting the extinction window: Flip-Rate-Aware Reward Scaling (FRS) down-weights at-risk updates as FR declines, Minority-Preserving Sampling (MPS) retains gradient signal from minority correct answers, and Risk-Conditioned Sparse Updatings (RCSU) suspends updates on polarized problems. Experiments across three models and four benchmarks show that TTRL-Guard achieves the best average pass@1 on Qwen2.5-7B-Instruct and Qwen3-4B, improves relatively over TTRL by +54\% on AIME 2025.
- Abstract(参考訳): テスト時間強化学習 (TTRL) は, 多数決を擬似ラベル信号として用いた数学的推論ベンチマークにおいて, かなりの精度向上を報告している。
多くは真の学習よりも、既に解決可能な問題のシャープ化を反映しているのに対して、不正に誤った問題は真に多くの学識者によって誤認され、多数決が間違った回答にロックされると、この損害は不可逆である、と我々は論じている。
パープロブレムトラッキングは、低可否問題における正しい解答信号が、永久に抑制される前に一時的にアクティブであることを明らかにし、この現象は、Flip Rate (FR) を主指標とする \textit{Correct-Answer Extinction Window} と呼ぶ。
そこで我々は,Flip-Rate-Aware Reward Scaling (FRS)ダウンウェイトはFRの減少に伴いリスクが低くなり,MPS (Minority-Preserving Sampling) はマイノリティ正解からの勾配信号を保持し,RCSU (Hass-Conditioned Sparse Updatings) は偏極問題に関する更新を停止する,という3つのメカニズムを持つ軽量フレームワークであるTTRL-Guardを提案する。
3つのモデルと4つのベンチマークから、TTRL-GuardはQwen2.5-7B-InstructとQwen3-4Bで最高平均パス@1を達成した。
関連論文リスト
- Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward [69.99652051809737]
本研究では,検証自由な内在性勾配項再帰(VIGOR)を提案する。
VIGORはポリシーモデルのみを使用する単純な報酬です。
数学データのみに基づいてトレーニングされた場合、コードベンチマークへのクロスドメイン転送を示す。
論文 参考訳(メタデータ) (2026-05-11T03:15:37Z) - What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time [57.533031432715084]
TTRL(Test-Time Reinforcement Learning)は、Large Language Models(LLM)が、ラベルのないテストストリームの推論能力を向上することを可能にする。
既存のTTRL法は、正の擬似ラベル戦略にのみ依存している。
本研究では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRLを提案する。
論文 参考訳(メタデータ) (2026-03-20T11:47:12Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - ASPO: Asymmetric Importance Sampling Policy Optimization [31.38346888572171]
ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:54:24Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。