論文の概要: Rethinking Multiple-Choice Questions for RLVR: Unlocking Potential via Distractor Design
- arxiv url: http://arxiv.org/abs/2603.12826v1
- Date: Fri, 13 Mar 2026 09:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.025046
- Title: Rethinking Multiple-Choice Questions for RLVR: Unlocking Potential via Distractor Design
- Title(参考訳): RLVRにおける複数項目質問の再考: ディトラクタ設計による解錠の可能性
- Authors: Xu Guo, Qiming Ge, Jian Tong, Kedi Chen, Jin Zhang, Xiaogui Yang, Xuan Gao, Haijun Lv, Zhihui Lu, Yicheng Zou, Qipeng Guo,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR)は、大規模言語モデルの推論能力を大幅に向上させる。
現在のアプローチでは、Multiple-Choice Questions (MCQ) をオープンなフォーマットに変換することで、これを緩和することが多い。
本稿では,高品質な分散器を積極的に構築し,除去ショートカットをブロックするフレームワークであるIterative Distractor Curation(IDC)を提案する。
- 参考スコア(独自算出の注目度): 32.193718910105325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) significantly enhances the reasoning capabilities of Large Language Models. When applied to RLVR, Multiple-Choice Questions (MCQs) offer a scalable source of verifiable data but risk inducing reward hacking, where models shortcut reasoning via random guessing or simple elimination. Current approaches often mitigate this by converting MCQs to open-ended formats, thereby discarding the contrastive signal provided by expert-designed distractors. In this work, we systematically investigate the impact of option design on RLVR. Our analysis highlights two primary insights: (1) Mismatches in option counts between training and testing degrade performance. (2) Strong distractors effectively mitigate random guessing, enabling effective RLVR training even with 2-way questions. Motivated by these findings, we propose Iterative Distractor Curation (IDC), a framework that actively constructs high-quality distractors to block elimination shortcuts and promote deep reasoning. Experiments on various benchmarks demonstrate that our method effectively enhances distractor quality and yields significant gains in RLVR training compared to the original data.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)は、大規模言語モデルの推論能力を大幅に向上させる。
RLVRに適用されると、Multiple-Choice Questions (MCQ)は、検証可能なデータのスケーラブルなソースを提供するが、報酬のハッキングを引き起こすリスクがある。
現在のアプローチでは、MCQをオープンなフォーマットに変換して、専門家が設計した妨害者が提供するコントラスト信号を捨てることによって、これを緩和することが多い。
本研究では,オプションデザインがRLVRに与える影響を体系的に検討する。
1) トレーニングとテストのパフォーマンス低下の間のオプションカウントのミスマッチ。
2) 強い注意散らしは, ランダムな推測を効果的に軽減し, 双方向質問においても効果的なRLVRトレーニングを可能にした。
これらの知見に触発されて, 高品質な散逸器を積極的に構築し, 除去ショートカットをブロックし, 深い推論を促進するフレームワークであるイテレーティブ・ディトラクタ・キュレーション(IDC)を提案する。
種々のベンチマーク実験により,本手法はトラクタ品質を効果的に向上し,RLVRトレーニングにおいて元のデータと比較して有意な向上をもたらすことが示された。
関連論文リスト
- LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards [51.45138356629732]
我々は,疎解報酬を高密度で検証可能な文脈報酬で増強するためにLongRLVRを導入する。
この補助信号は、正しい接地情報を選択するためのモデルを直接インセンティブ化する。
LongRLVRは、すべてのモデルとベンチマークで標準のRLVRよりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2026-03-02T18:07:53Z) - Detecting RLVR Training Data via Structural Convergence of Reasoning [31.260852555788205]
検証可能な報酬(RLVR)による強化学習は、現代の推論モデルのトレーニングの中心である。
RLVRは特徴的な行動シグネチャを誘導することを示す。
この崩壊を定量化する単純なブラックボックス検出器であるMin-$k$NN Distanceを導入する。
論文 参考訳(メタデータ) (2026-02-12T10:17:32Z) - Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning [82.91265691530351]
A$2$Dは、検証可能な報酬による強化学習の有効性を高めるための適応能力分解手法である。
まず、蒸留なしでRLVRを介して分解器を訓練し、複雑な質問を単純なサブクエストの集合に分解する。
次に、このデコンパイラを使用して、トレーニングデータセットの各質問に対するサブクエストをアノテートし、サブクエストガイダンスを用いてRLVR下での推論をトレーニングする。
論文 参考訳(メタデータ) (2026-01-31T14:48:23Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs [16.74831908818562]
最近の証拠は、Qwen 2.5のようなモデルは、急激な報酬や誤った報酬でも大きな利益を得られることを示している。
突発的なRLVRは、解答の難易度が低下し、プロンプト側コヒーレンスが低下する分岐を引き起こす。
我々はこのショートカットを容易にするアンカー・アダプタ回路を隠蔽した。
論文 参考訳(メタデータ) (2026-01-16T07:55:38Z) - Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning [3.437656066916039]
Reinforcement with Verifiable Rewards (RLVR)は、そのような機能を強化するための有望なアプローチとして登場した。
完全検証解の2つの問題についてRLVRについて検討する。
RLVRは評価基準を改善するが、しばしば新たな推論戦略を得るよりも、表層学習指標を強化することで改善する。
論文 参考訳(メタデータ) (2025-10-30T23:16:02Z) - The Reasoning Boundary Paradox: How Reinforcement Learning Constrains Language Models [31.773914661815393]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上のための重要な手法である。
最近の証拠は、拡張するのではなく、パラドックス的に推論境界を縮小する可能性があることを示唆している。
本稿では,RLVRの学習力学を解析することにより,RLVRの縮小問題を考察する。
論文 参考訳(メタデータ) (2025-10-02T17:17:27Z) - CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。