論文の概要: Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.09803v1
- Date: Tue, 10 Mar 2026 15:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.429458
- Title: Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning
- Title(参考訳): 良い推論は良いデモを作る:インテクスト強化学習を通して品質の監視を暗示する
- Authors: Tiehua Mei, Minxuan Lv, Leiyu Pan, Zhenpeng Su, Hongru Hou, Hengrui Chen, Ao Xu, Deqing Yang,
- Abstract要約: Reinforcement Learning with Verifiable Rewardsは、大規模言語モデルの推論を改善する。
高品質のソリューションは、低品質のソリューションよりも効果的なデモとして機能する。
- 参考スコア(独自算出の注目度): 15.270912634473143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) improves reasoning in large language models but treats all correct solutions equally, potentially reinforcing flawed traces that get correct answers by chance. We observe that better reasoning are better teachers: high-quality solutions serve as more effective demonstrations than low-quality ones. We term this teaching ability Demonstration Utility, and show that the policy model's own in-context learning ability provides an efficient way to measure it, yielding a quality signal termed Evidence Gain. To employ this signal during training, we introduce In-Context RLVR. By Bayesian analysis, we show that this objective implicitly reweights rewards by Evidence Gain, assigning higher weights to high-quality traces and lower weights to low-quality ones, without requiring costly computation or external evaluators. Experiments on mathematical benchmarks show improvements in both accuracy and reasoning quality over standard RLVR.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大きな言語モデルにおける推論を改善するが、すべての正しいソリューションを平等に扱う。
高品質のソリューションは、低品質のソリューションよりも効果的なデモとして役立ちます。
この教示能力を実証的実用性と呼び、政策モデル独自の文脈内学習能力が、それを効果的に測定する方法を提供し、エビデンスゲインと呼ばれる品質信号が得られることを示す。
トレーニング中にこの信号を利用するために、In-Context RLVRを導入する。
ベイズ解析により、この目的がエビデンス・ゲインによる報酬を暗黙的に再重み付けし、高い重量を高品質のトレースに割り当て、低い重量を低品質のトレースに割り当て、コストのかかる計算や外部評価器を必要としないことを示した。
数学ベンチマークの実験では、標準RLVRよりも精度と推論品質が向上した。
関連論文リスト
- LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards [51.45138356629732]
我々は,疎解報酬を高密度で検証可能な文脈報酬で増強するためにLongRLVRを導入する。
この補助信号は、正しい接地情報を選択するためのモデルを直接インセンティブ化する。
LongRLVRは、すべてのモデルとベンチマークで標準のRLVRよりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2026-03-02T18:07:53Z) - Proof-RM: A Scalable and Generalizable Reward Model for Math Proof [67.53066972145183]
大規模言語モデル(LLM)は,*検証リワード*(RLVR)を用いた強化学習を通じて,強力な数学推論能力を示した。
多くの先進的な数学的問題は証明ベースであり、単純な解マッチングによって証明の真性を決定するための保証された方法はない。
自動検証を実現するには、完全な証明プロセスを確実に評価できるリワードモデル(RM)が必要である。
論文 参考訳(メタデータ) (2026-02-02T17:42:53Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Utility-inspired Reward Transformations Improve Reinforcement Learning Training of Language Models [6.472081755630166]
報酬の線形集約がいかにいくつかの脆弱性を示すかを示す。
本稿では,効用関数の経済理論にインスパイアされた報酬関数の変換を提案する。
Inada-transformationsでトレーニングしたモデルは、有害度を低くしながら、より有用であることを示す。
論文 参考訳(メタデータ) (2025-01-08T19:03:17Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。