論文の概要: CoT2-Meta: Budgeted Metacognitive Control for Test-Time Reasoning
- arxiv url: http://arxiv.org/abs/2603.28135v1
- Date: Mon, 30 Mar 2026 07:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.289221
- Title: CoT2-Meta: Budgeted Metacognitive Control for Test-Time Reasoning
- Title(参考訳): CoT2-Meta:テスト時間推論のための予算付きメタ認知制御
- Authors: Siyuan Ma, Bo Gao, Zikai Xiao, Hailong Wang, Xinlei Yu, Rui Qian, Jiayu Qian, Luqi Gong, Yang Liu,
- Abstract要約: CoT2-Metaはトレーニング不要なメタ認知推論フレームワークである。
オブジェクトレベルの連鎖生成と部分的推論軌道に対するメタレベルの制御を組み合わせる。
強いシングルパス、サンプリングベース、検索ベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 17.364321308755667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent test-time reasoning methods improve performance by generating more candidate chains or searching over larger reasoning trees, but they typically lack explicit control over when to expand, what to prune, how to repair, and when to abstain. We introduce CoT2-Meta, a training-free metacognitive reasoning framework that combines object-level chain-of-thought generation with meta-level control over partial reasoning trajectories. The framework integrates four components: strategy-conditioned thought generation, tree-structured search, an online process oracle for step-level reasoning evaluation, and a meta-controller that allocates computation through expansion, pruning, repair, stopping, and fallback decisions. Under matched inference budgets, CoT2-Meta consistently outperforms strong single-path, sampling-based, and search-based baselines, including ReST-MCTS. On the default backbone, it achieves 92.8 EM on MATH, 90.4 accuracy on GPQA, 98.65 EM on GSM8K, 75.8 accuracy on BBEH, 85.6 accuracy on MMMU-Pro, and 48.8 accuracy on HLE, with gains over the strongest non-CoT2-Meta baseline of +3.6, +5.2, +1.15, +2.0, +4.3, and +4.3 points, respectively. Beyond these core results, the framework remains effective across a broader 15-benchmark suite spanning knowledge and QA, multi-hop reasoning, coding, and out-of-distribution evaluation. Additional analyses show better compute scaling, improved calibration, stronger selective prediction, targeted repair behavior, and consistent gains across backbone families. These results suggest that explicit metacognitive control is a practical design principle for reliable and compute-efficient test-time reasoning systems.
- Abstract(参考訳): 最近のテストタイム推論手法は、より多くの候補チェーンを生成したり、より大きな推論ツリーを探索することによってパフォーマンスを向上させるが、一般的には、いつ拡張するか、どのプルークするか、どのように修復するか、いつ停止するかを明確に制御できない。
本稿では,CoT2-Metaについて紹介する。CoT2-Metaは学習不要なメタ認知推論フレームワークで,オブジェクトレベルの連鎖生成と部分的推論軌道に対するメタレベルの制御を組み合わせたものだ。
このフレームワークは、戦略条件付き思考生成、ツリー構造化検索、ステップレベルの推論評価のためのオンラインプロセスオラクル、拡張、プルーニング、修復、停止、フォールバック決定を通じて計算を割り当てるメタコントローラの4つのコンポーネントを統合している。
一致した推論予算の下では、CoT2-Metaは、ReST-MCTSを含む強力なシングルパス、サンプリングベース、検索ベースラインを一貫して上回っている。
デフォルトのバックボーンは、MATHで92.8 EM、GPQAで90.4 EM、GSM8Kで98.65 EM、BBEHで75.8 EM、MMMU-Proで85.6 の精度、HLEで48.8 の精度で達成され、それぞれ+3.6、+5.2、+1.15、+2.0、+4.3、+4.3 の最高レベルの非CoT2-Metaベースラインを上回ります。
これらの中核的な結果以外にも、このフレームワークは、知識とQA、マルチホップ推論、コーディング、アウト・オブ・ディストリビューション評価にまたがる15のベンチマークスイートで有効である。
さらなる分析では、より良い計算スケーリング、キャリブレーションの改善、より強力な選択予測、ターゲットの修理行動、バックボーンファミリー間の一貫した利得が示されている。
これらの結果から,明示的メタ認知制御は信頼性と計算効率のよいテスト時間推論システムのための実用的な設計原理であることが示唆された。
関連論文リスト
- Reasoning Topology Matters: Network-of-Thought for Complex Reasoning Tasks [5.523132953818281]
CoT(Chain-of-Thought)は線形トレースを生成し、ToT(Tree-of-Thought)は分岐探索を実行する。
タイプノードとエッジを持つ有向グラフとして推論をモデル化するフレームワークであるNetwork-of-Thought (NoT)を提案する。
論文 参考訳(メタデータ) (2026-03-21T09:32:28Z) - REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - Multi-chain Graph Refinement and Selection for Reliable Reasoning in Large Language Models [7.230514235208748]
我々は、MGRS(Multi-chain Graph Refinement & Selection)と呼ばれる新しい推論フレームワークを提案する。
MGRSは推論手法の推論能力と計算効率の両方を著しく向上させる。
24ポイントのゲームでは、MGRSは初めて100%の精度を達成し、主要なフォレスト・オブ・ソートズ・フレームワークと比較して13.6倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-11-28T12:35:16Z) - Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning [38.67622953293653]
自己アライメント(MASA)によるメタアウェアネスを高めるトレーニングパイプラインを設計する。
既存のメタ認知推論モデルとは異なり、本手法は外部トレーニング源を必要としない。
我々の戦略は、ドメイン内タスクの精度とトレーニング効率の両方において、大幅な改善をもたらす。
論文 参考訳(メタデータ) (2025-09-26T14:05:48Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - MetaScale: Test-Time Scaling with Evolving Meta-Thoughts [51.35594569020857]
実験の結果、MetaScaleは標準推論アプローチよりも一貫して優れています。
METASCALEは、サンプリング予算を増やしてより効果的にスケールし、より構造化された専門家レベルのレスポンスを生成する。
論文 参考訳(メタデータ) (2025-03-17T17:59:54Z) - Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。