論文の概要: From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation
- arxiv url: http://arxiv.org/abs/2601.18533v1
- Date: Mon, 26 Jan 2026 14:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.872905
- Title: From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation
- Title(参考訳): 検証可能なドットからリワードチェイン:オープンエンド生成の強化学習のための検証可能な参照ベースリワード
- Authors: Yuxin Jiang, Yufei Wang, Qiyuan Zhang, Xingshan Zeng, Liangyou Li, Jierun Chen, Chaofan Tao, Haoli Bai, Lifeng Shang,
- Abstract要約: 検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
- 参考スコア(独自算出の注目度): 52.62655622099456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) succeeds in reasoning tasks (e.g., math and code) by checking the final verifiable answer (i.e., a verifiable dot signal). However, extending this paradigm to open-ended generation is challenging because there is no unambiguous ground truth. Relying on single-dot supervision often leads to inefficiency and reward hacking. To address these issues, we propose reinforcement learning with verifiable reference-based rewards (RLVRR). Instead of checking the final answer, RLVRR extracts an ordered linguistic signal from high-quality references (i.e, reward chain). Specifically, RLVRR decomposes rewards into two dimensions: content, which preserves deterministic core concepts (e.g., keywords), and style, which evaluates adherence to stylistic properties through LLM-based verification. In this way, RLVRR combines the exploratory strength of RL with the efficiency and reliability of supervised fine-tuning (SFT). Extensive experiments on more than 10 benchmarks with Qwen and Llama models confirm the advantages of our approach. RLVRR (1) substantially outperforms SFT trained with ten times more data and advanced reward models, (2) unifies the training of structured reasoning and open-ended generation, and (3) generalizes more effectively while preserving output diversity. These results establish RLVRR as a principled and efficient path toward verifiable reinforcement learning for general-purpose LLM alignment. We release our code and data at https://github.com/YJiangcm/RLVRR.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、最終的な検証可能な答え(すなわち、検証可能なドット信号)をチェックすることによって、タスク(例えば、数学やコード)の推論に成功する。
しかし、このパラダイムをオープンエンド世代に拡張することは、曖昧な基礎的な真実が存在しないため、難しい。
シングルドットの監視を頼りにすると、しばしば非効率性と報酬のハッキングにつながる。
これらの課題に対処するため、検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
具体的には、RLVRRは報酬を2つの次元に分解する:コンテンツは決定論的コア概念(例えばキーワード)を保存し、スタイルはLCMベースの検証によってスタイリスティックな性質への固執を評価する。
このようにして、RLVRRはRLの探索強度と教師付き微調整(SFT)の効率と信頼性を組み合わせる。
QwenモデルとLlamaモデルを用いた10以上のベンチマークによる大規模な実験により、我々のアプローチの利点が確認された。
RLVRR (1) は、10倍のデータと高度な報酬モデルで訓練された SFT を大幅に上回り、(2) 構造化推論とオープンエンド生成の訓練を統一し、(3) 出力の多様性を維持しながらより効果的に一般化する。
これらの結果は、汎用LLMアライメントのための検証可能強化学習への原則的かつ効率的な経路としてRLVRRを確立している。
コードとデータはhttps://github.com/YJiangcm/RLVRR.comで公開しています。
関連論文リスト
- Replay Failures as Successes: Sample-Efficient Reinforcement Learning for Instruction Following [42.05102776289243]
強化学習(RL)は、様々な制約で命令に従うために、LLM(Large Language Models)を調整することを約束している。
タスク追従のための新しいサンプル効率のRLフレームワークであるHindsight instruction Replay (HiR)を提案する。
論文 参考訳(メタデータ) (2025-12-29T13:31:08Z) - Efficient Reasoning via Reward Model [24.105621725286497]
検証可能な報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)の推論能力を高めることが示されている。
DeepSeek-R1 や OpenAI o1 のような LRM は、過剰または無関係な推論ステップを含む冗長な応答をしばしば生成する。
本稿では,結果報酬と簡潔度スコアとの間に明確な依存性を有する,CRF(Conciseness Reward Function)という新たな報酬定式化を導入する。
論文 参考訳(メタデータ) (2025-11-12T09:51:07Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Transparent and Robust RAG: Adaptive-Reward Reinforcement Learning for Decision Traceability [15.949084214401692]
Adaptive-Rewarded Evidence Navigation Agent (ARENA)は、RLを介してトレーニングされた透明で堅牢なRAGジェネレータフレームワークである。
構造化されたプロトコル、KL分散安定化および適応報酬計算モジュールに基づいて、ARENAはRAGジェネレータが鍵証拠を識別し、構造化推論を行い、解釈可能な決定トレースで回答を生成する。
論文 参考訳(メタデータ) (2025-05-19T15:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。