論文の概要: DARL: Encouraging Diverse Answers for General Reasoning without Verifiers
- arxiv url: http://arxiv.org/abs/2601.14700v1
- Date: Wed, 21 Jan 2026 06:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.261569
- Title: DARL: Encouraging Diverse Answers for General Reasoning without Verifiers
- Title(参考訳): DARL:検証不要な一般推論のための多変量解答の促進
- Authors: Chongxuan Huang, Lei Lin, Xiaodong Shi, Wenping Hu, Ruiming Tang,
- Abstract要約: DARLは、参照から制御された偏差範囲内で多様な回答を生成するための強化学習フレームワークである。
我々のフレームワークは、既存の汎用強化学習手法と完全に互換性があり、追加の検証なしでシームレスに統合できる。
- 参考スコア(独自算出の注目度): 41.35516261603945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated promising gains in enhancing the reasoning capabilities of large language models. However, its dependence on domain-specific verifiers significantly restricts its applicability to open and general domains. Recent efforts such as RLPR have extended RLVR to general domains, enabling training on broader datasets and achieving improvements over RLVR. However, a notable limitation of these methods is their tendency to overfit to reference answers, which constrains the model's ability to generate diverse outputs. This limitation is particularly pronounced in open-ended tasks such as writing, where multiple plausible answers exist. To address this, we propose DARL, a simple yet effective reinforcement learning framework that encourages the generation of diverse answers within a controlled deviation range from the reference while preserving alignment with it. Our framework is fully compatible with existing general reinforcement learning methods and can be seamlessly integrated without additional verifiers. Extensive experiments on thirteen benchmarks demonstrate consistent improvements in reasoning performance. Notably, DARL surpasses RLPR, achieving average gains of 1.3 points on six reasoning benchmarks and 9.5 points on seven general benchmarks, highlighting its effectiveness in improving both reasoning accuracy and output diversity.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を向上する上で、有望な成果を上げている。
しかし、ドメイン固有の検証への依存は、オープンおよびジェネラルドメインへの適用性を著しく制限する。
RLPRのような最近の取り組みは、RLVRを一般ドメインに拡張し、より広範なデータセットのトレーニングを可能にし、RLVRよりも改善した。
しかし、これらの手法の顕著な制限は、モデルが様々なアウトプットを生成する能力を制限する、参照回答に過度に適合する傾向にある。
この制限は、複数のもっともらしい答えが存在する書き込みのようなオープンなタスクにおいて特に顕著である。
そこで本稿では,DARLを提案する。DARLは,参照から制御された偏差範囲内での多様な回答の生成を促進しつつ,アライメントを保ったままに生成する,シンプルで効果的な強化学習フレームワークである。
我々のフレームワークは、既存の汎用強化学習手法と完全に互換性があり、追加の検証なしでシームレスに統合できる。
13のベンチマークに関する大規模な実験では、推論性能が一貫した改善が示されている。
特に、DARLはRLPRを超え、6つの推論ベンチマークで平均1.3ポイント、7つの一般的なベンチマークで9.5ポイントを獲得し、推論精度と出力の多様性の両方を改善する効果を強調している。
関連論文リスト
- Coupled Variational Reinforcement Learning for Language Model General Reasoning [83.82392089177841]
変分推論と強化学習を橋渡しするために,textitbCoupled bVari bReinforcement bLearning (CoVRL)を提案する。
CoVRLはベースモデルよりも12.4%向上し、最先端の検証不要なRLベースラインよりも2.3%向上した。
論文 参考訳(メタデータ) (2025-12-14T07:03:51Z) - Reward and Guidance through Rubrics: Promoting Exploration to Improve Multi-Domain Reasoning [79.365697698062]
マルチドメイン推論のためのフレームワークである $textbfRGR-GRPO (Reward and Guidance through rubrics) を提案する。
RGR-GRPOは、代替の報酬スキームやオフラインガイダンスにのみ依存するRLメソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2025-11-15T20:14:51Z) - Auditable-choice reframing unlocks RL-based verification for open-ended tasks [23.12421867559344]
Verible Multiple-Choice Reformulation (VMR)は、オープンエンドデータを検証可能な複数選択形式に再構成する新しいトレーニング戦略である。
8つのオープンエンドベンチマークで、VMRベースのトレーニングはベースラインで平均5.99ポイント向上します。
論文 参考訳(メタデータ) (2025-11-04T10:45:52Z) - Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning [3.437656066916039]
Reinforcement with Verifiable Rewards (RLVR)は、そのような機能を強化するための有望なアプローチとして登場した。
完全検証解の2つの問題についてRLVRについて検討する。
RLVRは評価基準を改善するが、しばしば新たな推論戦略を得るよりも、表層学習指標を強化することで改善する。
論文 参考訳(メタデータ) (2025-10-30T23:16:02Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。