論文の概要: Reinforcement Learning with Conditional Expectation Reward
- arxiv url: http://arxiv.org/abs/2603.10624v1
- Date: Wed, 11 Mar 2026 10:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.899359
- Title: Reinforcement Learning with Conditional Expectation Reward
- Title(参考訳): 条件付き期待リワードによる強化学習
- Authors: Changyi Xiao, Caijun Xu, Yixin Cao,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上に有効であることが証明されている。
本稿では,大言語モデル自体を暗黙の検証手段として活用する条件付き期待逆変換(CER)を提案する。
CERは、生成された回答に条件付き参照回答を生成するための期待可能な可能性として定義される。
- 参考スコア(独自算出の注目度): 11.862379897558556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective in enhancing the reasoning capabilities of large language models, particularly in domains such as mathematics where reliable rule-based verifiers can be constructed. However, the reliance on handcrafted, domain-specific verification rules substantially limits the applicability of RLVR to general reasoning domains with free-form answers, where valid answers often exhibit significant variability, making it difficult to establish complete and accurate rules. To address this limitation, we propose Conditional Expectation Reward (CER), which leverages the large language model itself as an implicit verifier, and is therefore applicable to general domains and eliminates the need for external verifiers or auxiliary models. CER is defined as the expected likelihood of generating the reference answer conditioned on the generated answer. In contrast to rule-based verifiers that yield binary feedback, CER provides a soft, graded reward signal that reflects varying degrees of correctness, making it better suited to tasks where answers vary in correctness. Experimental results demonstrate that CER is effective across a wide range of reasoning tasks, spanning both mathematical and general domains, indicating that CER serves as a flexible and general verification mechanism. The code is available at https://github.com/changyi7231/CER.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、特に信頼できるルールベースの検証を構築できる数学のような分野において、大規模言語モデルの推論能力を高めるのに有効であることが証明されている。
しかし、手作りのドメイン固有の検証ルールへの依存は、RLVRを自由形式の答えを持つ一般的な推論領域に適用する可能性を大幅に制限する。
この制限に対処するため,大言語モデル自体を暗黙の検証対象として活用し,汎用ドメインに適用可能であり,外部検証や補助モデルの必要性を排除した条件付き予測逆数(CER)を提案する。
CERは、生成された回答に条件付き参照回答を生成するための期待可能な可能性として定義される。
バイナリフィードバックを出力するルールベースの検証器とは対照的に、CERは、様々な正しさの度合いを反映するソフトなグレードの報酬信号を提供しており、回答が正しさに異なるタスクに適している。
実験の結果、CERは数学領域と一般領域の両方にまたがる幅広い推論タスクで有効であることが示され、CERが柔軟で一般的な検証メカニズムとして機能することを示唆している。
コードはhttps://github.com/changyi7231/CERで公開されている。
関連論文リスト
- Know What You Know: Metacognitive Entropy Calibration for Verifiable RL Reasoning [31.629261193485053]
大規模推論モデル(LRM)は、複雑な現実世界のタスクを解くための強力なパラダイムとして登場した。
既存の結果のみのRLVRパイプラインのほとんどは、バイナリの正当性信号にのみ依存しており、モデルの本質的な不確かさをほとんど無視している。
本稿では,メタ認知型エントロピーキャリブレーションフレームワークEGPOを提案する。
論文 参考訳(メタデータ) (2026-02-26T08:40:06Z) - On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - DARL: Encouraging Diverse Answers for General Reasoning without Verifiers [41.35516261603945]
DARLは、参照から制御された偏差範囲内で多様な回答を生成するための強化学習フレームワークである。
我々のフレームワークは、既存の汎用強化学習手法と完全に互換性があり、追加の検証なしでシームレスに統合できる。
論文 参考訳(メタデータ) (2026-01-21T06:23:55Z) - From Faithfulness to Correctness: Generative Reward Models that Think Critically [40.07140704454647]
本稿では,批判的思考能力を持つ報酬モデルを実現するために,思考監督リワードモデル(TRM)を提案する。
問合せ、回答、支援文書が与えられたとき、TRMはまず各回答文の忠実さを支援文書に評価し、その後、文レベルの正しさを評価するための推論ステップを適用する。
論文 参考訳(メタデータ) (2025-09-29T19:06:56Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Unsupervised Domain Generalization for Person Re-identification: A
Domain-specific Adaptive Framework [50.88463458896428]
ドメイン一般化(DG)は近年,人物再同定(ReID)において注目されている。
既存のメソッドは通常、ソースドメインにラベルを付ける必要があります。
本稿では、単純で効率的なドメイン固有適応化フレームワークを提案し、適応正規化モジュールで実現する。
論文 参考訳(メタデータ) (2021-11-30T02:35:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。