Fugu-MT 論文翻訳(概要): CoT2-Meta: Budgeted Metacognitive Control for Test-Time Reasoning

論文の概要: CoT2-Meta: Budgeted Metacognitive Control for Test-Time Reasoning

arxiv url: http://arxiv.org/abs/2603.28135v1
Date: Mon, 30 Mar 2026 07:59:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:45.289221
Title: CoT2-Meta: Budgeted Metacognitive Control for Test-Time Reasoning
Title（参考訳）: CoT2-Meta:テスト時間推論のための予算付きメタ認知制御
Authors: Siyuan Ma, Bo Gao, Zikai Xiao, Hailong Wang, Xinlei Yu, Rui Qian, Jiayu Qian, Luqi Gong, Yang Liu,
Abstract要約: CoT2-Metaはトレーニング不要なメタ認知推論フレームワークである。オブジェクトレベルの連鎖生成と部分的推論軌道に対するメタレベルの制御を組み合わせる。強いシングルパス、サンプリングベース、検索ベースラインを一貫して上回る。
参考スコア（独自算出の注目度）: 17.364321308755667
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent test-time reasoning methods improve performance by generating more candidate chains or searching over larger reasoning trees, but they typically lack explicit control over when to expand, what to prune, how to repair, and when to abstain. We introduce CoT2-Meta, a training-free metacognitive reasoning framework that combines object-level chain-of-thought generation with meta-level control over partial reasoning trajectories. The framework integrates four components: strategy-conditioned thought generation, tree-structured search, an online process oracle for step-level reasoning evaluation, and a meta-controller that allocates computation through expansion, pruning, repair, stopping, and fallback decisions. Under matched inference budgets, CoT2-Meta consistently outperforms strong single-path, sampling-based, and search-based baselines, including ReST-MCTS. On the default backbone, it achieves 92.8 EM on MATH, 90.4 accuracy on GPQA, 98.65 EM on GSM8K, 75.8 accuracy on BBEH, 85.6 accuracy on MMMU-Pro, and 48.8 accuracy on HLE, with gains over the strongest non-CoT2-Meta baseline of +3.6, +5.2, +1.15, +2.0, +4.3, and +4.3 points, respectively. Beyond these core results, the framework remains effective across a broader 15-benchmark suite spanning knowledge and QA, multi-hop reasoning, coding, and out-of-distribution evaluation. Additional analyses show better compute scaling, improved calibration, stronger selective prediction, targeted repair behavior, and consistent gains across backbone families. These results suggest that explicit metacognitive control is a practical design principle for reliable and compute-efficient test-time reasoning systems.
Abstract（参考訳）: 最近のテストタイム推論手法は、より多くの候補チェーンを生成したり、より大きな推論ツリーを探索することによってパフォーマンスを向上させるが、一般的には、いつ拡張するか、どのプルークするか、どのように修復するか、いつ停止するかを明確に制御できない。本稿では,CoT2-Metaについて紹介する。CoT2-Metaは学習不要なメタ認知推論フレームワークで,オブジェクトレベルの連鎖生成と部分的推論軌道に対するメタレベルの制御を組み合わせたものだ。このフレームワークは、戦略条件付き思考生成、ツリー構造化検索、ステップレベルの推論評価のためのオンラインプロセスオラクル、拡張、プルーニング、修復、停止、フォールバック決定を通じて計算を割り当てるメタコントローラの4つのコンポーネントを統合している。一致した推論予算の下では、CoT2-Metaは、ReST-MCTSを含む強力なシングルパス、サンプリングベース、検索ベースラインを一貫して上回っている。デフォルトのバックボーンは、MATHで92.8 EM、GPQAで90.4 EM、GSM8Kで98.65 EM、BBEHで75.8 EM、MMMU-Proで85.6 の精度、HLEで48.8 の精度で達成され、それぞれ+3.6、+5.2、+1.15、+2.0、+4.3、+4.3 の最高レベルの非CoT2-Metaベースラインを上回ります。これらの中核的な結果以外にも、このフレームワークは、知識とQA、マルチホップ推論、コーディング、アウト・オブ・ディストリビューション評価にまたがる15のベンチマークスイートで有効である。さらなる分析では、より良い計算スケーリング、キャリブレーションの改善、より強力な選択予測、ターゲットの修理行動、バックボーンファミリー間の一貫した利得が示されている。これらの結果から,明示的メタ認知制御は信頼性と計算効率のよいテスト時間推論システムのための実用的な設計原理であることが示唆された。

論文の概要: CoT2-Meta: Budgeted Metacognitive Control for Test-Time Reasoning

関連論文リスト