論文の概要: CoRE: Enhancing Metacognition with Label-free Self-evaluation in LRMs
- arxiv url: http://arxiv.org/abs/2507.06087v1
- Date: Tue, 08 Jul 2025 15:28:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.263275
- Title: CoRE: Enhancing Metacognition with Label-free Self-evaluation in LRMs
- Title(参考訳): CoRE: LRMにおけるラベルなし自己評価によるメタ認知の強化
- Authors: Haoxi Li, Sikai Bai, Jie Zhang, Song Guo,
- Abstract要約: 大規模推論モデル (LRM) は、数学やプログラム合成のような分野において印象的な能力を示している。
LRMは、推論中に非効率をもたらす過度で冗長な推論ステップを過度に考え過ぎていることが多い。
LRMの中間的推論ステップにおけるラベルフリー自己評価を可能にするために,CRE(Chain-of-Reasoning Embedding)を提案する。
- 参考スコア(独自算出の注目度): 12.399179284322862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) have demonstrated impressive capabilities in domains like mathematics and program synthesis. Despite their strong performance, LRMs often exhibit overthinking -- excessive and redundant reasoning steps that introduce inefficiencies during inference. This phenomenon raises an important question for LRM self-evaluation: How can a model autonomously assess the correctness of its own reasoning trajectory without external labels? To address this, we propose Chain-of-Reasoning Embedding (CoRE), a series of hidden states in latent space to enable label-free self-evaluation on intermediate reasoning steps of LRMs, so as to enhance metacognition abilities for improved reasoning efficiency. By analyzing the geometric properties of the CoRE trajectories, we reveal that redundant reasoning usually presents cyclical fluctuations, which correspond to repetitive and unconscious reflection/exploration. Leveraging this insight, we further introduce a training-free, label-free self-evaluation framework, CoRE-Eval, to detect such patterns and dynamically determine whether to terminate reasoning early. Extensive experiments on mathematical reasoning benchmarks (GSM8K, MATH-500, and AIME) and across model sizes from 7B to 32B demonstrate that CoRE-Eval reduces chain-of-thought length by 13.7% to 33.2% while improving answer accuracy by around 10%, achieving 70.0% accuracy on the challenging AIME benchmark with the 32B model.
- Abstract(参考訳): 大規模推論モデル (LRM) は、数学やプログラム合成のような分野において印象的な能力を示している。
強いパフォーマンスにもかかわらず、LRMは推論中に非効率をもたらす過度で冗長な推論ステップを過度に考え過ぎていることが多い。
この現象は、LRM自己評価に重要な疑問を提起する: モデルが外部ラベルなしで自身の推論軌道の正しさを自律的に評価するにはどうすればよいか?
そこで本稿では,LRMの中間的推論ステップにおけるラベルフリー自己評価を可能にするために,潜在空間における一連の隠れ状態であるChain-of-Reasoning Embedding (CoRE)を提案する。
CoRE軌道の幾何学的性質を解析することにより、冗長な推論は通常、反復的および無意識的な反射・探索に対応する循環的ゆらぎを示す。
この知見を活かして、トレーニング不要でラベルなしの自己評価フレームワークであるCoRE-Evalを導入し、そのようなパターンを検出し、推論を早期に終了するかを動的に判断する。
数学的推論ベンチマーク(GSM8K、MATH-500、AIME)とモデルサイズを7Bから32Bに広げた大規模な実験では、CoRE-Evalはチェーン・オブ・ソートの長さを13.7%から33.2%に削減し、解の精度を約10%改善し、32Bモデルによる挑戦的AIMEベンチマークでは70.0%の精度を達成した。
関連論文リスト
- Is Long-to-Short a Free Lunch? Investigating Inconsistency and Reasoning Efficiency in LRMs [8.359909829007005]
大規模推論モデル(LRM)において,効率的な推論手法が行動の不整合をもたらすかどうかを検討する。
$ICBENCH$は、3次元にわたるLRMの不整合を測定するために設計されたベンチマークである。
より大きなモデルは一般的に小さなモデルよりも一貫性が高いが、すべてのモデルが広く「計画的」な振る舞いを示す。
論文 参考訳(メタデータ) (2025-06-24T10:25:28Z) - TrimR: Verifier-based Training-Free Thinking Compression for Efficient Test-Time Scaling [20.980976778470247]
大規模推論モデル(LRM)は、複雑な数学的、論理的、コーディングタスクに対処する際、例外的な能力を示す。
本稿では,動的チェイン・オブ・ソート(CoT)圧縮のための検証器ベース,トレーニング不要,効率的なフレームワークTrimRを提案する。
論文 参考訳(メタデータ) (2025-05-22T12:23:30Z) - When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning [20.233873556056487]
大規模推論モデル(LRM)は、長い推論チェーンを通じて顕著な性能を達成するが、しばしば冗長な推論のために過剰な計算オーバーヘッドを引き起こす。
本稿では、不必要な推論を抑え、暗黙の回復を可能にするフレームワークである適応自己回復推論(ASRR)を提案する。
本研究は, LRMの効率, 適応性, 安全性を高めるためのASRRの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-05-21T11:41:39Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [75.1101108949743]
大規模推論モデル(LRM)は、Chain-of-Thought (CoT)プロンプトを介して複雑な推論タスクを強く行う。
LRMは冗長なコンテンツによる冗長なアウトプット、計算オーバーヘッドの増加、ユーザエクスペリエンスの低下に悩まされることが多い。
本稿では,推論中のモデルの信頼性を高めることによって推論チェーンを簡素化するフレームワークであるConCISEを提案する。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。