論文の概要: Learning to Self-Verify Makes Language Models Better Reasoners
- arxiv url: http://arxiv.org/abs/2602.07594v1
- Date: Sat, 07 Feb 2026 15:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.713224
- Title: Learning to Self-Verify Makes Language Models Better Reasoners
- Title(参考訳): 言語モデルを改善する自己検証の学習
- Authors: Yuxin Chen, Yu Wang, Yi Zhang, Ziang Ye, Zhengzhou Cai, Yaorui Shi, Qi Gu, Hui Su, Xunliang Cai, Xiang Wang, An Zhang, Tat-Seng Chua,
- Abstract要約: 大規模言語モデル(LLM)は、複雑なタスクに対する有望な推論パスを生成する上で、強力なパフォーマンスを達成する。
強力な生成能力にもかかわらず、LSMは自身の答えを検証するのに弱いままである。
同じタスクであっても、生成を改善することは、自己検証の改善に繋がらないことを示す。
- 参考スコア(独自算出の注目度): 65.75109817173315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large language models (LLMs) achieve strong performance in generating promising reasoning paths for complex tasks. However, despite powerful generation ability, LLMs remain weak at verifying their own answers, revealing a persistent capability asymmetry between generation and self-verification. In this work, we conduct an in-depth investigation of this asymmetry throughout training evolution and show that, even on the same task, improving generation does not lead to corresponding improvements in self-verification. Interestingly, we find that the reverse direction of this asymmetry behaves differently: learning to self-verify can effectively improve generation performance, achieving accuracy comparable to standard generation training while yielding more efficient and effective reasoning traces. Building on this observation, we further explore integrating self-verification into generation training by formulating a multi-task reinforcement learning framework, where generation and self-verification are optimized as two independent but complementary objectives. Extensive experiments across benchmarks and models demonstrate performance gains over generation-only training in both generation and verification capabilities.
- Abstract(参考訳): 近年の大規模言語モデル (LLM) は, 複雑なタスクに対する有望な推論経路を生成する上で, 高い性能を達成している。
しかし、強力な生成能力にもかかわらず、LLMは自身の答えを検証するのに弱いままであり、生成と自己検証の間に永続的な能力の非対称性を明らかにする。
本研究では,この非対称性を学習過程を通じて詳細に研究し,同じ課題において,生成の改善が自己検証の改善に繋がらないことを示す。
自己検証の学習は、より効率的で効果的な推論トレースを得られるとともに、標準生成トレーニングに匹敵する精度を達成し、生成性能を効果的に向上させることができる。
本研究は,多タスク強化学習の枠組みを定式化し,自己検証と自己検証を2つの独立した相補的目的として最適化することで,世代訓練への自己検証の統合をさらに検討する。
ベンチマークとモデルにわたる大規模な実験は、生成と検証の両方の能力において、世代のみのトレーニングよりもパフォーマンスの向上を示す。
関連論文リスト
- Endogenous Reprompting: Self-Evolving Cognitive Alignment for Unified Multimodal Models [23.128973540926552]
内因性再増殖は、モデルの理解を明確な生成的推論ステップに変換する。
評価精度,再現効率,生成品質において,SEERは一貫して最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-28T06:54:36Z) - Turning Internal Gap into Self-Improvement: Promoting the Generation-Understanding Unification in MLLMs [46.43090277452948]
MLLMの統一化は、優れた生成の理解と内部的なギャップを生じさせることを示す。
この発見は、シンプルだが効果的な内部ギャップに基づく自己改善フレームワークを提案する動機となっている。
プレトレーニングでよく知られるが,ポストトレーニングでは過小評価されている,このような自己改善の併用効果を実証的に発見する。
論文 参考訳(メタデータ) (2025-07-22T14:56:39Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Evolving LLMs' Self-Refinement Capability via Synergistic Training-Inference Optimization [53.93621974137829]
自己精製(Self-Refinement)とは、モデルが自身のレスポンスを改訂し、改善された出力を生成する能力を指す。
EVOLVEは、反復的なトレーニングを通じて自己精製の進化を導き、追跡するためのフレームワークである。
固有モデル能力のより広範な自己改善を実現するために自己改善を活用する可能性を実証する。
論文 参考訳(メタデータ) (2025-02-08T15:21:55Z) - Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models [10.449015816015566]
自己改善は、Large Language Model(LLM)の事前トレーニング、ポストトレーニング、テストタイム推論におけるメカニズムである。
本稿では,自己改善のための数学的定式化について述べる。
また、自己改善がいつ可能か、反復的な自己改善手順、その性能改善方法についても検討する。
論文 参考訳(メタデータ) (2024-12-03T18:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。