論文の概要: Meta-R1: Empowering Large Reasoning Models with Metacognition
- arxiv url: http://arxiv.org/abs/2508.17291v1
- Date: Sun, 24 Aug 2025 10:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.448103
- Title: Meta-R1: Empowering Large Reasoning Models with Metacognition
- Title(参考訳): メタR1:メタ認知を用いた大規模推論モデルの実現
- Authors: Haonan Dong, Haoran Ye, Wenhao Zhu, Kehan Jiang, Guojie Song,
- Abstract要約: 大きな推論モデル(LRM)は複雑なタスクに顕著な能力を示し、創発的で人間らしい思考パターンを示す。
現在のLRMには「思考を考える」ことのできるメタレベルの認知システムがない
メタ認知機能を備えたLEMを包含する,体系的で汎用的なフレームワークであるMeta-R1を紹介する。
- 参考スコア(独自算出の注目度): 26.882951068900496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) demonstrate remarkable capabilities on complex tasks, exhibiting emergent, human-like thinking patterns. Despite their advances, we identify a fundamental limitation: current LRMs lack a dedicated meta-level cognitive system-an essential faculty in human cognition that enables "thinking about thinking". This absence leaves their emergent abilities uncontrollable (non-adaptive reasoning), unreliable (intermediate error), and inflexible (lack of a clear methodology). To address this gap, we introduce Meta-R1, a systematic and generic framework that endows LRMs with explicit metacognitive capabilities. Drawing on principles from cognitive science, Meta-R1 decomposes the reasoning process into distinct object-level and meta-level components, orchestrating proactive planning, online regulation, and adaptive early stopping within a cascaded framework. Experiments on three challenging benchmarks and against eight competitive baselines demonstrate that Meta-R1 is: (I) high-performing, surpassing state-of-the-art methods by up to 27.3%; (II) token-efficient, reducing token consumption to 15.7% ~ 32.7% and improving efficiency by up to 14.8% when compared to its vanilla counterparts; and (III) transferable, maintaining robust performance across datasets and model backbones.
- Abstract(参考訳): 大きな推論モデル(LRM)は複雑なタスクに顕著な能力を示し、創発的で人間らしい思考パターンを示す。
これらの進歩にもかかわらず、我々は根本的な限界を識別する:現在のLEMは「思考について考えること」を可能にする、人間認知において不可欠な、専門的なメタレベルの認知システムを欠いている。
この欠如により、創発的能力は制御不能(非適応的推論)、信頼不能(中間的誤り)、柔軟性(明確な方法論の欠如)となる。
このギャップに対処するために、メタR1は、明示的なメタ認知機能を備えたLEMをサポートする体系的で汎用的なフレームワークである。
メタR1は認知科学の原則に基づいて、推論プロセスを異なるオブジェクトレベルおよびメタレベルコンポーネントに分解し、積極的に計画し、オンライン規制し、カスケードされたフレームワーク内で適応的な早期停止を行う。
3つの挑戦的なベンチマークと8つの競合するベースラインの実験では、Meta-R1がハイパフォーマンスで、最先端のメソッドを最大27.3%上回り、トークン効率が低下し、トークン消費が15.7%から32.7%に減少し、バニラに比べて14.8%向上し、転送可能で、データセットやモデルバックボーン間の堅牢なパフォーマンスを維持している。
関連論文リスト
- SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents [31.726927520069616]
自己進化型エボダイドエージェント(SeEA-R1)は、自己進化型エボダイドエージェント用に設計された最初の強化微細調整フレームワークである。
スパース遅延報酬をより高密度な中間信号に変換し、多段階推論を改善する。
タスクやシーンにまたがる報酬推定を一般化し、自律的な適応と報酬駆動の自己進化をサポートする。
論文 参考訳(メタデータ) (2025-06-26T18:00:07Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - Reflection-Bench: Evaluating Epistemic Agency in Large Language Models [10.801745760525838]
疫学エージェンシーは動的環境に関する信念を柔軟に構築し、適応し、監視する能力である。
リフレクション・ベンチ(Reflection-Bench)は,データ漏洩の長期的関連性と最小化を伴う7つのタスクからなるベンチマークである。
本研究は, コア認知機能の向上, クロスファンクショナルコーディネートの改善, 適応処理機構の開発など, 有望な研究の方向性を示唆する。
論文 参考訳(メタデータ) (2024-10-21T17:59:50Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。