論文の概要: From Solving to Verifying: A Unified Objective for Robust Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2511.15137v1
- Date: Wed, 19 Nov 2025 05:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.646243
- Title: From Solving to Verifying: A Unified Objective for Robust Reasoning in LLMs
- Title(参考訳): 解決から検証へ:LLMにおけるロバスト推論のための統一目的
- Authors: Xiaoxuan Wang, Bo Liu, Song Jiang, Jingzhou Liu, Jingyuan Qi, Xia Chen, Baosheng He,
- Abstract要約: 本稿では,統合損失関数内での解生成と自己検証を協調的に最適化するアルゴリズムGRPO-Verifを提案する。
実験により,提案手法は推論において同等の性能を維持しつつ,自己検証能力を向上させることが示された。
- 参考スコア(独自算出の注目度): 13.024616714540999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reasoning capabilities of large language models (LLMs) have been significantly improved through reinforcement learning (RL). Nevertheless, LLMs still struggle to consistently verify their own reasoning traces. This raises the research question of how to enhance the self-verification ability of LLMs and whether such an ability can further improve reasoning performance. In this work, we propose GRPO-Verif, an algorithm that jointly optimizes solution generation and self-verification within a unified loss function, with an adjustable hyperparameter controlling the weight of the verification signal. Experimental results demonstrate that our method enhances self-verification capability while maintaining comparable performance in reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力は強化学習(RL)によって大幅に改善されている。
それでも、LSMは自身の推論の痕跡を一貫して検証するのに苦労している。
これにより, LLMの自己検証能力の向上と, その能力が推論性能をさらに向上させるかどうか, 研究課題が提起される。
本研究では,統一損失関数内での解生成と自己検証を協調的に最適化するアルゴリズムGRPO-Verifを提案する。
実験により,提案手法は推論において同等の性能を維持しつつ,自己検証能力を向上させることが示された。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Can LLMs Correct Themselves? A Benchmark of Self-Correction in LLMs [57.10533368622962]
大規模言語モデル(LLM)の自己補正は、推論性能を高める重要な要素として現れる。
本研究では,自己補正戦略の有効性を評価するためのベンチマークであるCorrectBenchを紹介する。
その結果,1) 自己補正手法は, 複雑な推論タスクにおいて, 精度を向上させることが可能であり, 2) 異なる自己補正戦略の混合により, 効率は低下するものの, さらなる改善がもたらされることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-17T02:40:19Z) - ReVeal: Self-Evolving Code Agents via Reliable Self-Verification [11.875519107421312]
自己検証とツールベースの評価を通じてコード生成を進化させる強化学習フレームワークであるReVealを紹介する。
推論において、この強化された自己検証により、3つしかトレーニングされていないLiveCodeBenchでは、自己構築されたテストとツールフィードバックを使用して、20ターン以上のコードを継続的に進化させることができる。
これらの調査結果は、RLトレーニングとテストタイムスケーリングのためのスケーラブルなパラダイムとしてのReVealの約束を強調し、より堅牢で自律的なAIエージェントへの道を開いた。
論文 参考訳(メタデータ) (2025-06-13T03:41:04Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Your Language Model May Think Too Rigidly: Achieving Reasoning Consistency with Symmetry-Enhanced Training [66.48331530995786]
我々は、文脈から有用な情報を抽出する能力を向上させるデータ中心のアプローチであるsyMmetry-ENhanceD (MEND) Data Augmentationを提案する。
推論連鎖の増大を強調する既存の手法とは異なり,本手法は知識抽出段階におけるモデルロバスト性を向上させる。
論理的および算術的推論タスクの実験は、MENDが様々なクエリのバリエーションで推論性能を向上させることを示している。
論文 参考訳(メタデータ) (2025-02-25T03:03:35Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。
しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。
このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。
モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。