論文の概要: Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2506.00103v2
- Date: Wed, 11 Jun 2025 14:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.227992
- Title: Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards
- Title(参考訳): write-Zero: 検証不可能なタスクと検証不能なリワードの間にギャップを埋める
- Authors: Ruipeng Jia, Yunyi Yang, Yongbo Gai, Kai Luo, Shihao Huang, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang,
- Abstract要約: 我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
- 参考スコア(独自算出の注目度): 11.149294285483782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has enabled large language models (LLMs) to achieve remarkable breakthroughs in reasoning tasks with objective ground-truth answers, such as mathematics and code generation. However, a significant gap remains for non-verifiable tasks, like creative writing and open-ended dialogue, where quality assessment is inherently subjective and lacks definitive references. Existing approaches for these domains often rely on scalar reward models trained with human preferences, which suffer from limited generalization and are prone to reward hacking, such as over-explanation and length bias. In this work, we propose a unified RLVR-based training paradigm that bridges the gap between non-verifiable tasks and verifiable rewards. We introduce a writing-principle-based pairwise Generative Reward Model (GenRM) and a novel Bootstrapped Relative Policy Optimization (BRPO) algorithm. The pairwise writing GenRM leverages self-principled critique to transform subjective assessments into reliable, verifiable rewards, while BRPO enables dynamic, reference-free pairwise comparison by leveraging a bootstrapped response as temporary reference from within group rollouts during RL training. Our approach empowers LLMs to develop robust writing capabilities without supervised fine-tuning, as demonstrated by Writing-Zero, which shows consistent improvement and strong resistance to reward hacking compared to scalar reward baselines. Furthermore, our method achieves competitive results on both in-house and open-source writing benchmarks. Our findings suggest the potential to unify rule-based, reference-based, and reference-free reward modeling under the RLVR framework, thus paving the way for a comprehensive and scalable RL training paradigm applicable across all language tasks.
- Abstract(参考訳): 検証可能な報奨付き強化学習(RLVR)により、数学やコード生成など、客観的な基礎的答えを伴うタスクの推論において、大きな言語モデル(LLM)が目覚ましいブレークスルーを達成することができた。
しかし、創造的な文章やオープンエンド対話のような検証不可能なタスクには、品質評価が本質的に主観的であり、決定的な参照が欠如している大きなギャップが残っている。
これらの領域に対する既存のアプローチは、しばしば人間の好みで訓練されたスカラー報酬モデルに依存し、それは限定的な一般化に悩まされ、過剰な説明や長さバイアスのようなハッキングに報酬を与える傾向にある。
本研究では、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
GenRMは自己原則的批判を利用して、主観的評価を信頼性のある、検証可能な報酬に変換する一方で、BRPOは、RLトレーニング中のグループロールアウトから、ブートストラップされた応答を一時的な参照として活用することにより、動的で参照なしのペアワイズ比較を可能にする。
提案手法は,スカラー報酬ベースラインと比較して,一貫した改善と報酬ハッキングに対する強い抵抗を示す書き込み-ゼロが示すように,微調整を監督せずに堅牢な書き込み機能を開発することを促す。
さらに,本手法は,社内とオープンソースの両方のベンチマークにおいて,競合する結果を得る。
本研究は,ルールベース,参照ベース,参照フリーの報酬モデリングをRLVRフレームワーク上で統一し,全ての言語タスクに適用可能な総合的かつスケーラブルなRLトレーニングパラダイムを実現する可能性を示唆している。
関連論文リスト
- R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging [69.96389360650072]
解析精度は, 標準ラベルの精度を超えて, 下流RLHFの結果を高い精度で予測できることが示される。
我々は,金の判断でトレーニングを増強し,合理的アライメントを明示的に監督するR-Alignを提案する。
論文 参考訳(メタデータ) (2026-02-06T15:17:11Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Owen-Shapley Policy Optimization (OSPO): A Principled RL Algorithm for Generative Search LLMs [12.75200353208858]
Owen-Shapley Policy Optimization (OSPO)は、トークンの成果に対する限界貢献に基づいて、シーケンスレベルの利点を再分配するフレームワークである。
付加的な計算を必要とする値モデルベースの方法とは異なり、OSPOはセグメントレベルのクレジットを割り当てるためにShapley-Owen属性を介して潜在的ベースの報酬シェーピングを採用する。
Amazon ESCIとH&M Fashionデータセットの実験は、ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-01-13T10:17:46Z) - Incorporating Self-Rewriting into Large Language Model Reasoning Reinforcement [54.63337314382886]
自己書き起こしフレームワークを導入し、モデルが独自の推論テキストを書き直し、その後、書き直し推論から学習し、内部思考プロセスの品質を向上させる。
アルゴリズム設計において、モデルの一貫した正当性によって定義される「単純な」サンプルのみを書き換える選択的な書き換え手法を提案する。
モデルサイズが異なる多様なタスクの実験は、自己書き換えの有効性を検証する。
論文 参考訳(メタデータ) (2025-11-20T13:10:52Z) - Auditable-choice reframing unlocks RL-based verification for open-ended tasks [23.12421867559344]
Verible Multiple-Choice Reformulation (VMR)は、オープンエンドデータを検証可能な複数選択形式に再構成する新しいトレーニング戦略である。
8つのオープンエンドベンチマークで、VMRベースのトレーニングはベースラインで平均5.99ポイント向上します。
論文 参考訳(メタデータ) (2025-11-04T10:45:52Z) - OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment [38.1645520104553]
OpenRubricsは,ルーブリック世代とルーブリックベースの報酬モデルをトレーニングするための,大規模な(プロンプト,エクスプリシット)ペアのコレクションである。
識別的・包括的評価信号を引き出すために,優先的・拒否的な応答を対比することにより,厳格な規則(単純質)と原則(簡易品質)の両方を導出するコントラスト生成(CRG)を導入する。
この結果から,ごみは費用対人評価と自動報酬モデリングのギャップを狭めるような,スケーラブルなアライメント信号を提供することがわかった。
論文 参考訳(メタデータ) (2025-10-09T03:31:26Z) - CAPO: Towards Enhancing LLM Reasoning through Verifiable Generative Credit Assignment [39.965170904699974]
RLVR(Reinforcement Learning with Verifiable Rewards)は、ルールベースのバイナリフィードバックを使用することで、LLM(Large Language Models)の推論能力を改善した。
現在のRLVRメソッドは、すべてのレスポンスを単一のアクションとして扱い、トークンに同じ報酬を割り当てる。
この粗い粒度のフィードバックは、正確なクレジット割り当てを妨げ、モデルがどの推論ステップが成功または失敗につながるかを特定するのが難しくなる。
論文 参考訳(メタデータ) (2025-08-04T11:06:08Z) - Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains [8.143110220871614]
我々は、構造化されたチェックリストスタイルのルーリックを解釈可能な報酬信号として利用するフレームワークであるRaRを紹介する。
ごみを構造化された報酬信号として扱うことにより、RaRはより小規模の審査モデルで人間の嗜好に適合できることを示す。
論文 参考訳(メタデータ) (2025-07-23T17:57:55Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - QA-LIGN: Aligning LLMs through Constitutionally Decomposed QA [49.9801383018588]
シンボル報酬の自動分解手法であるQA-LIGNを導入する。
モノリシックスコアを出力するブラックボックス報酬モデルをトレーニングする代わりに、QA-LIGNは原則固有の評価質問を定式化する。
QA-LIGNはより透明性と適応性を提供することを示した。
論文 参考訳(メタデータ) (2025-06-09T18:24:57Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Reinfier and Reintrainer: Verification and Interpretation-Driven Safe Deep Reinforcement Learning Frameworks [36.730973051834376]
本稿では,信頼性の高いDRLモデルを開発するために,検証駆動型ループ内解釈フレームワークReintrainerを提案する。
各イテレーションにおいて、このフレームワークは、トレーニング中のモデルと事前定義されたプロパティの間のギャップをフォーマルな検証を使って測定する。
Reinfierは、簡潔な制約エンコーディング言語DRLPに関連する、ブレークポイント検索と検証駆動型解釈を備えている。
論文 参考訳(メタデータ) (2024-10-19T15:03:26Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - ALaRM: Align Language Models via Hierarchical Rewards Modeling [41.79125107279527]
ALaRMは、人間からのフィードバックから強化学習において、階層的な報酬をモデル化する最初のフレームワークである。
このフレームワークは、全体的な報酬とアスペクト固有の報酬を統合することで、現在のアライメントアプローチの限界に対処する。
我々は、長文質問応答および機械翻訳タスクの応用を通して、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-11T14:28:40Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。