論文の概要: Auditable-choice reframing unlocks RL-based verification for open-ended tasks
- arxiv url: http://arxiv.org/abs/2511.02463v1
- Date: Tue, 04 Nov 2025 10:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.95583
- Title: Auditable-choice reframing unlocks RL-based verification for open-ended tasks
- Title(参考訳): オーディタブル・チョイス・リフレーミングは、オープンエンドタスクに対するRLベースの検証をアンロックする
- Authors: Mengyu Zhang, Xubo Liu, Siyu Ding, Weichong Yin, Yu Sun, Hua Wu, Wenya Guo, Ying Zhang,
- Abstract要約: Verible Multiple-Choice Reformulation (VMR)は、オープンエンドデータを検証可能な複数選択形式に再構成する新しいトレーニング戦略である。
8つのオープンエンドベンチマークで、VMRベースのトレーニングはベースラインで平均5.99ポイント向上します。
- 参考スコア(独自算出の注目度): 23.12421867559344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated great potential in enhancing the reasoning capabilities of large language models (LLMs), achieving remarkable progress in domains such as mathematics and programming where standard answers are available. However, for open-ended tasks lacking ground-truth solutions (e.g., creative writing and instruction following), existing studies typically regard them as non-reasoning scenarios, thereby overlooking the latent value of reasoning capabilities. This raises a key question: Can strengthening reasoning improve performance in open-ended tasks? To address this, we explore the transfer of the RLVR paradigm to the open domain. Yet, since RLVR fundamentally relies on verifiers that presuppose the existence of standard answers, it cannot be directly applied to open-ended tasks. To overcome this challenge, we introduce Verifiable Multiple-Choice Reformulation (VMR), a novel training strategy that restructures open-ended data into verifiable multiple-choice formats, enabling effective training even in the absence of explicit ground truth. Experimental results on multiple benchmarks validate the effectiveness of our method in improving LLM performance on open-ended tasks. Notably, across eight open-ended benchmarks, our VMR-based training delivers an average gain of 5.99 points over the baseline. Code will be released upon acceptance to facilitate reproducibility.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を高める大きな可能性を示し、標準解が利用できる数学やプログラミングなどの分野において顕著な進歩を遂げている。
しかしながら、基礎的真理を欠いたオープンエンドタスク(例えば、創造的な記述と指示に従う)では、既存の研究は通常、それらを非理性的なシナリオとみなし、従って推論能力の潜在的な価値を見落としている。
推論を強化することは、オープンなタスクのパフォーマンスを向上させることができるのか?
そこで我々は,RLVRパラダイムのオープンドメインへの移行について検討する。
しかし、RLVRは基本的に標準解の存在を前提とした検証に頼っているため、オープンなタスクに直接適用することはできない。
この課題を克服するために,オープンエンドデータを検証可能な複数選択形式に再構成する新たなトレーニング戦略であるVerifiable Multiple-Choice Reformulation (VMR)を導入する。
複数のベンチマークによる実験結果から,オープンエンドタスクにおけるLCMの性能向上に本手法の有効性が検証された。
特に、VMRベースのトレーニングでは、8つのオープンエンドベンチマークで、ベースライン平均5.99ポイントが達成されています。
再現性を促進するために、コードは受け入れられてリリースされる。
関連論文リスト
- Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective [82.24301452333577]
強化学習(RL)は,大規模言語モデル(LLM)推論を改善するための有望なアプローチとして登場した。
重要な課題は、様々な推論領域にまたがる信頼性とスケーラブルなRL報酬信号の欠如である。
我々は,6つの推論領域にまたがる92Kの検証可能な例をキュレートしたRL推論コーパスであるGuruを紹介する。
論文 参考訳(メタデータ) (2025-06-17T20:24:00Z) - Direct Reasoning Optimization: LLMs Can Reward And Refine Their Own Reasoning for Open-Ended Tasks [6.881699020319577]
大規模言語モデル(LLM)を微調整するための強化学習フレームワークであるダイレクト推論最適化(DRO)を提案する。
DROは新たな報酬信号、Reasoning Reflection Reward (R3)によって誘導される。
DROは、オープンエンドドメインと構造化ドメインの両方にわたって広く適用されながら、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-16T10:43:38Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。