論文の概要: Coupled Variational Reinforcement Learning for Language Model General Reasoning
- arxiv url: http://arxiv.org/abs/2512.12576v1
- Date: Sun, 14 Dec 2025 07:03:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.323402
- Title: Coupled Variational Reinforcement Learning for Language Model General Reasoning
- Title(参考訳): 言語モデル一般推論のための結合型変分強化学習
- Authors: Xueru Wen, Jie Lou, Yanjiang Liu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Yaojie Lu, Debing Zhang,
- Abstract要約: 変分推論と強化学習を橋渡しするために,textitbCoupled bVari bReinforcement bLearning (CoVRL)を提案する。
CoVRLはベースモデルよりも12.4%向上し、最先端の検証不要なRLベースラインよりも2.3%向上した。
- 参考スコア(独自算出の注目度): 83.82392089177841
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While reinforcement learning have achieved impressive progress in language model reasoning, they are constrained by the requirement for verifiable rewards. Recent verifier-free RL methods address this limitation by utilizing the intrinsic probabilities of LLMs generating reference answers as reward signals. However, these approaches typically sample reasoning traces conditioned only on the question. This design decouples reasoning-trace sampling from answer information, leading to inefficient exploration and incoherence between traces and final answers. In this paper, we propose \textit{\b{Co}upled \b{V}ariational \b{R}einforcement \b{L}earning} (CoVRL), which bridges variational inference and reinforcement learning by coupling prior and posterior distributions through a hybrid sampling strategy. By constructing and optimizing a composite distribution that integrates these two distributions, CoVRL enables efficient exploration while preserving strong thought-answer coherence. Extensive experiments on mathematical and general reasoning benchmarks show that CoVRL improves performance by 12.4\% over the base model and achieves an additional 2.3\% improvement over strong state-of-the-art verifier-free RL baselines, providing a principled framework for enhancing the general reasoning capabilities of language models.
- Abstract(参考訳): 強化学習は言語モデル推論において顕著な進歩を遂げてきたが、検証可能な報酬の要求に制約されている。
近年の検証不要なRL法では,LLMの固有確率を利用して報酬信号として参照応答を生成する手法が提案されている。
しかしながら、これらのアプローチは典型的には、質問にのみ条件づけられた推論トレースをサンプリングする。
この設計は、回答情報からの推論・トレースサンプリングを分離し、トレースと最終回答の間の非効率な探索と非コヒーレンスをもたらす。
本稿では,事前および後続分布の結合による変分推論と強化学習をハイブリッドサンプリング戦略により橋渡しする,<textit{\b{Co}upled \b{V}ariational \b{R}einforcement \b{L}earning} (CoVRL)を提案する。
これら2つの分布を統合した複合分布の構築と最適化により、CoVRLは強力な思考・回答コヒーレンスを維持しながら効率的な探索を可能にする。
数学的および一般的な推論ベンチマークに関する広範な実験により、CoVRLはベースモデルよりも12.4\%向上し、最先端の検証不要なRLベースラインよりも2.3\%向上し、言語モデルの一般的な推論能力を高めるための原則化されたフレームワークを提供する。
関連論文リスト
- RFG: Test-Time Scaling for Diffusion Large Language Model Reasoning with Reward-Free Guidance [101.30279597148973]
プロセス報酬を明示せずにdLLMの推論軌道を導出するためのRFGを提案する。
RFGは、すべてのタスクとモデルタイプに一貫して大きな改善をもたらし、最大9.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-29T23:59:16Z) - ConfClip: Confidence-Weighted and Clipped Reward for Reinforcement Learning in LLMs [32.13266235550995]
強化学習(RL)は、大規模言語モデル(LLM)の標準化の標準パラダイムとなっている。
人間の学習から得られた観察から着想を得て、検証可能な結果とモデル自身の信頼度推定を統合するRL手法を導入する。
論文 参考訳(メタデータ) (2025-09-22T13:00:35Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Hybrid Latent Reasoning via Reinforcement Learning [50.6763762323985]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文 参考訳(メタデータ) (2025-05-24T01:26:16Z) - LeTS: Learning to Think-and-Search via Process-and-Outcome Reward Hybridization [30.95342819013663]
大規模言語モデル(LLM)は、推論において印象的な能力を示している。
近年の研究では、検索結果教師付き強化学習(RL)アプローチを通じて、推論能力を検索強化世代(RAG)領域に統合することに焦点を当てている。
我々は、段階的なプロセス報酬と結果に基づく報酬をRAGのための現在のRL手法にハイブリダイズする新しいフレームワークであるLearning to Think-and-Search(LeTS)を提案する。
論文 参考訳(メタデータ) (2025-05-23T04:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。