Fugu-MT 論文翻訳(概要): Mirroring the Mind: Distilling Human-Like Metacognitive Strategies into Large Language Models

論文の概要: Mirroring the Mind: Distilling Human-Like Metacognitive Strategies into Large Language Models

arxiv url: http://arxiv.org/abs/2602.22508v1
Date: Thu, 26 Feb 2026 00:56:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.460176
Title: Mirroring the Mind: Distilling Human-Like Metacognitive Strategies into Large Language Models
Title（参考訳）: 心のミラーリング:人間のようなメタ認知戦略を大規模言語モデルに拡張する
Authors: Ik-hwan Kim, Hyeongrok Han, Mingi Jung, Sangwon Yu, Jinseok Hong, Sang Hun Kim, Yoonyoung Choi, Sungroh Yoon,
Abstract要約: 大規模推論モデル(LRM)は複雑な推論タスクにおいてしばしば構造的不安定性を示す。メタ認知行動チューニング(MBT)は,メタ認知行動をモデル思考プロセスに明示的に注入するフレームワークである。
参考スコア（独自算出の注目度）: 37.387637955634304
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Reasoning Models (LRMs) often exhibit structural fragility in complex reasoning tasks, failing to produce correct answers even after successfully deriving valid intermediate steps. Through systematic analysis, we observe that these failures frequently stem not from a lack of reasoning capacity, but from a deficiency in self-regulatory control, where valid logic is destabilized by uncontrolled exploration or the failure to recognize logical sufficiency. Motivated by this observation, we propose Metacognitive Behavioral Tuning (MBT), a post-training framework that explicitly injects metacognitive behaviors into the model's thought process. MBT implements this via two complementary formulations: (1) MBT-S, which synthesizes rigorous reasoning traces from scratch, and (2) MBT-R, which rewrites the student's initial traces to stabilize intrinsic exploration patterns. Experiments across multi-hop QA benchmarks demonstrate that MBT consistently outperforms baselines, achieving notable gains on challenging benchmarks. By effectively eliminating reasoning collapse, MBT achieves higher accuracy with significantly reduced token consumption, demonstrating that internalizing metacognitive strategies leads to more stable and robust reasoning.
Abstract（参考訳）: 大規模推論モデル(LRM)は複雑な推論タスクにおいて構造的脆弱性を示すことが多く、有効な中間段階の導出に成功した後でも正しい答えが得られない。系統的な分析を通して、これらの失敗は推論能力の欠如からではなく、制御不能な探索や論理的充足力の認識の欠如によって論理的論理が不安定になる自己調節制御の欠如に起因していると考えられる。本研究の目的は,メタ認知行動調整をモデル思考プロセスに明示的に注入するポストトレーニングフレームワークであるメタ認知行動調整(MBT)を提案することである。 MBTは、(1)厳密な推論トレースをスクラッチから合成するMBT-S、(2)学生の初期トレースを書き換えて固有の探索パターンを安定化するMBT-Rという2つの補完的な定式化によってこれを実装している。マルチホップQAベンチマークの実験では、MBTはベースラインを一貫して上回り、挑戦的なベンチマークで顕著な利益を達成している。推論の崩壊を効果的に排除することにより、MBTはトークン消費を著しく減少させ、メタ認知戦略の内在化がより安定かつ堅牢な推論をもたらすことを示す。

関連論文リスト

Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models [15.849480549367684]
本稿では,DAG生成タスクとして脆弱性推論をモデル化する新しいフレームワークであるDAGVulを提案する。さらにReinforcement Learning with Verifiable Rewards (RLVR)を導入することで、モデル推論トレースをプログラム固有の論理と整合させる。我々のフレームワークは、すべてのベースラインに対して平均18.9%の推論F1スコアを改善します。
論文参考訳（メタデータ） (2026-02-06T13:19:45Z)
CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。 CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文参考訳（メタデータ） (2026-01-16T07:27:40Z)
How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。推論を原子核スキルに分解する新しいベンチマークを導入する。 SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文参考訳（メタデータ） (2025-12-30T08:16:20Z)
Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。 SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文参考訳（メタデータ） (2025-09-20T17:09:14Z)
From "Aha Moments" to Controllable Thinking: Toward Meta-Cognitive Reasoning in Large Reasoning Models via Decoupled Reasoning and Control [11.321315058502215]
大規模推論モデル(LRM)は、ステップバイステップの推論、リフレクション、バックトラッキングなどの認知行動を自発的に示すことで、複雑な推論の潜在能力を示した。しかし、そのような創発的行動は規制されず、制御されていないままであり、しばしば過度に考え直され、モデルが信頼できる結論に達した後も冗長な推論内容を生成し続ける。現在のモデルは、いつ継続するか、バックトラックするか、終了するかを決定するために、彼らの推論プロセスを監視し、適応的に管理できない。我々はメタ認知推論フレームワーク(MERA)を提案する。
論文参考訳（メタデータ） (2025-08-06T13:59:17Z)
Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文参考訳（メタデータ） (2025-05-20T16:53:40Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。