論文の概要: Adapting Like Humans: A Metacognitive Agent with Test-time Reasoning
- arxiv url: http://arxiv.org/abs/2511.23262v1
- Date: Fri, 28 Nov 2025 15:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.956773
- Title: Adapting Like Humans: A Metacognitive Agent with Test-time Reasoning
- Title(参考訳): 人間に適応する:テスト時間推論を用いたメタ認知エージェント
- Authors: Yang Li, Zhiyuan He, Yuxuan Huang, Zhuhanling Xiao, Chao Yu, Meng Fang, Kun Shao, Jun Wang,
- Abstract要約: 近年のビジョン・ランゲージ・モデル(VLM)は、知覚的推論能力が強いが、テスト時に新しいタスクに遭遇する際には、効率よく適応するのに苦労することが多い。
対照的に、人間は記憶を伴うメタ認知モデルを活用し、新しい課題に直面したとき、メタ認知制御による継続的な戦略改善を可能にする。
メタ認知的自己更新(メタ認知的自己更新)により、メタ認知的テストタイム推論(MCTR)は、モデルにメタ認知的自己更新(メタ認知的自己更新)を通じて、テスト時間中に学習し、適応し、改善する能力を備えたフレームワークである。
- 参考スコア(独自算出の注目度): 38.92106966820126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Vision-Language Models (VLMs) exhibit strong perceptual reasoning abilities, yet they often struggle to adapt efficiently when encountering novel tasks at test time. In contrast, humans leverage the metacognitive model with memory, enabling continuous strategy refinement through metacognitive control when faced with new challenges. To bridge this gap, we propose metacognitive test-time reasoning (MCTR), a framework that equips models with the ability to learn, adapt, and improve during test time through metacognitive self-updating. Inspired by the dual structure of human metacognition, MCTR comprises meta-level and object-level VLM reasoning modules, each equipped with dedicated memory systems for hierarchical adaptive reasoning. Specifically, MCTR consists of (1) a meta-reasoning module which incrementally builds a structured memory by discovering and storing task-relevant rules, environmental patterns, and action-outcome relationships from test-time observations as natural language descriptions; and (2) an action-reasoning module that determines optimal actions through context-aware perception and strategic reasoning by dynamically retrieving and integrating knowledge from memory. The action-reasoning module continuously updates its policy through proposed metacognitive test-time reinforcement learning, adapting as knowledge memory evolves. We evaluate MCTR on 45 Atari games (33 seen, 12 unseen). MCTR demonstrates robust test-time adaptation, achieving 9/12 top-1 results on unseen games compared with baselines. Analyses through ablations, learning dynamics, and case studies reveal the complementary contributions of both components and show meta-reasoning evolving toward human-like adaptation strategies.
- Abstract(参考訳): 近年のビジョン・ランゲージ・モデル(VLM)は、知覚的推論能力が強いが、テスト時に新しいタスクに遭遇する際には、効率よく適応するのに苦労することが多い。
対照的に、人間は記憶を伴うメタ認知モデルを活用し、新しい課題に直面したとき、メタ認知制御による継続的な戦略改善を可能にする。
このギャップを埋めるため,メタ認知的自己更新(Metacognitive self-updating)により,モデルに学習,適応,改善の能力を備えたメタ認知的テストタイム推論(Metacognitive test-time reasoning,MCTR)を提案する。
ヒトメタ認知の二重構造にインスパイアされたMCTRは、メタレベルとオブジェクトレベルのVLM推論モジュールから構成され、それぞれに階層適応推論のための専用メモリシステムを備えている。
具体的には,(1)タスク関連ルール,環境パターン,およびアクションアウトカム関係を自然言語記述として発見・保存することにより,構造化メモリを段階的に構築するメタ推論モジュールと,(2)動的に記憶から知識を回収・統合することで,コンテキスト認識の認識と戦略的推論を通じて最適な行動を決定するアクション推論モジュールとから構成される。
アクション推論モジュールはメタ認知型テストタイム強化学習を通じてポリシーを継続的に更新し、知識記憶が進化するにつれて適応する。
また,45試合(33回,12回)でMCTRを評価した。
MCTRは堅牢なテストタイム適応を示し、ベースラインと比較して目に見えないゲームで9/12のトップ-1結果を達成する。
アブレーション、学習力学、ケーススタディを通じて分析し、両方の構成要素の相補的な貢献を明らかにし、ヒトのような適応戦略に向かって進化するメタ推論を示す。
関連論文リスト
- Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。
我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。
複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文 参考訳(メタデータ) (2025-11-20T18:59:00Z) - PISA: A Pragmatic Psych-Inspired Unified Memory System for Enhanced AI Agency [50.712873697511206]
既存の作業は、多種多様なタスクへの適応性に欠けることが多く、AIエージェントメモリの構成的およびタスク指向の役割を見落としている。
PISAは,メモリを構築的かつ適応的なプロセスとして扱う,実践的でサイコにインスパイアされた統合メモリシステムである。
既存のLOCOMOベンチマークと新たに提案したデータ解析タスクのAggQAベンチマークに基づいて,PISAが適応性と長期的知識保持を大幅に向上させることで,新たな最先端技術を設定することを確認した。
論文 参考訳(メタデータ) (2025-10-12T10:34:35Z) - Towards Meta-Cognitive Knowledge Editing for Multimodal LLMs [71.8547241246169]
本稿では,MLLMのメタ認知的知識編集能力を評価するための新しいベンチマークであるCogEditを紹介する。
本稿では,自己認識のためのメタ知識メモリを構築するフレームワークであるMINDを提案する。
論文 参考訳(メタデータ) (2025-09-06T13:26:04Z) - Fuzzy, Symbolic, and Contextual: Enhancing LLM Instruction via Cognitive Scaffolding [3.553493344868413]
本研究では,指導対話における大規模言語モデル(LLM)の認知行動に,素早いレベルの帰納的バイアスがどう影響するかを検討する。
本稿では,適応的,構造化された推論を促進するために,短期記憶スキーマと組み合わせたシンボリックスキャフォールディング手法を提案する。
予備的な結果は、我々の完全なシステムがベースラインの変種を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-08-28T20:46:13Z) - Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive Foundations for Artificial General Intelligence and its Societal Impact [27.722167796617114]
本稿では,人工知能,認知神経科学,心理学,生成モデル,エージェントベースシステムの学際的合成について述べる。
我々は汎用知能のアーキテクチャと認知の基礎を分析し、モジュラー推論、永続記憶、マルチエージェント協調の役割を強調した。
我々は、人工知能への道の鍵となる科学的、技術的、倫理的課題を特定します。
論文 参考訳(メタデータ) (2025-07-01T16:52:25Z) - Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities [43.327357653393015]
本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
提案するフレームワークが,いくつかのベンチマークで最先端のベースラインを上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-12-26T11:11:23Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - On Fast Adversarial Robustness Adaptation in Model-Agnostic
Meta-Learning [100.14809391594109]
モデルに依存しないメタラーニング(MAML)は、数発の学習において最も成功したメタラーニング手法の1つである。
メタモデルの一般化力にもかかわらず、マルチショット学習においてMDLがいかに敵対的堅牢性を維持することができるかは明らかではない。
本稿では,ラベルなしデータ拡張,高速な攻撃生成,計算量軽微な微調整を可能にする,汎用的かつ最適化が容易なロバストネス正規化メタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。