論文の概要: Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations
- arxiv url: http://arxiv.org/abs/2505.13763v2
- Date: Fri, 24 Oct 2025 02:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:14.912985
- Title: Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations
- Title(参考訳): メタ認知的モニタリングと内部活動の制御が可能な言語モデル
- Authors: Li Ji-An, Hua-Dong Xiong, Robert C. Wilson, Marcelo G. Mattar, Marcus K. Benna,
- Abstract要約: 大規模言語モデル(LLM)は、タスクの解決に実際に使用している戦略を報告することができるが、その振る舞いを管理する戦略を認識できない場合もある。
これはメタ認知(メタ認知)の程度が限定されていることを示唆している。
我々は,LLMのメタ認知能力の定量化と,その活性化パターンの報告と制御に,文脈内学習を用いた神経科学に着想を得た神経フィードバックパラダイムを導入する。
- 参考スコア(独自算出の注目度): 2.759846687681801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can sometimes report the strategies they actually use to solve tasks, yet at other times seem unable to recognize those strategies that govern their behavior. This suggests a limited degree of metacognition - the capacity to monitor one's own cognitive processes for subsequent reporting and self-control. Metacognition enhances LLMs' capabilities in solving complex tasks but also raises safety concerns, as models may obfuscate their internal processes to evade neural-activation-based oversight (e.g., safety detector). Given society's increased reliance on these models, it is critical that we understand their metacognitive abilities. To address this, we introduce a neuroscience-inspired neurofeedback paradigm that uses in-context learning to quantify metacognitive abilities of LLMs to report and control their activation patterns. We demonstrate that their abilities depend on several factors: the number of in-context examples provided, the semantic interpretability of the neural activation direction (to be reported/controlled), and the variance explained by that direction. These directions span a "metacognitive space" with dimensionality much lower than the model's neural space, suggesting LLMs can monitor only a small subset of their neural activations. Our paradigm provides empirical evidence to quantify metacognition in LLMs, with significant implications for AI safety (e.g., adversarial attack and defense).
- Abstract(参考訳): 大規模言語モデル(LLM)は、タスクの解決に実際に使用している戦略を報告することができるが、その振る舞いを管理する戦略を認識できない場合もある。
これはメタ認知(メタ認知)の程度が限定されていることを示唆している。
メタ認知は、複雑なタスクの解決におけるLLMの能力を高めるが、モデルが神経活動に基づく監視(例えば、安全検知器)を避けるために内部プロセスが複雑になる可能性があるため、安全性の懸念も引き起こす。
社会がこれらのモデルに依存していることを考えると、そのメタ認知能力を理解することが重要である。
そこで本研究では,LLMのメタ認知能力の定量化と,その活性化パターンの報告と制御を行う,神経科学にヒントを得た神経フィードバックパラダイムを提案する。
それらの能力は、提供された文脈内サンプルの数、神経活性化方向の意味的解釈可能性(報告/制御)、およびその方向によって説明される分散など、いくつかの要因に依存することを示した。
これらの方向は、モデルのニューラルスペースよりも次元がはるかに低い「メタ認知空間」にまたがっており、LLMはニューラルアクティベーションの小さなサブセットだけを監視することができることを示唆している。
我々のパラダイムは、LLMにおけるメタ認知を定量化する実証的な証拠を提供し、AIの安全性(敵攻撃や防御など)に重要な意味を持つ。
関連論文リスト
- Why are LLMs' abilities emergent? [0.0]
系は他の複雑な自然現象に類似した真の創発性を示すと私は主張する。
この視点は、これらのシステムが個々の定義を超越する能力を得ることを可能にする内部の動的変換を理解することに焦点を移す。
論文 参考訳(メタデータ) (2025-08-06T12:43:04Z) - Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization [17.101290138120564]
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。
ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。
Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
論文 参考訳(メタデータ) (2025-06-12T17:33:29Z) - Concept-Guided Interpretability via Neural Chunking [54.73787666584143]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
本稿では,ラベルの可利用性と次元性に基づいて,これら新たな実体を抽出する3つの手法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - Meta-Representational Predictive Coding: Biomimetic Self-Supervised Learning [51.22185316175418]
メタ表現予測符号化(MPC)と呼ばれる新しい予測符号化方式を提案する。
MPCは、並列ストリームにまたがる感覚入力の表現を予測することを学ぶことによって、感覚入力の生成モデルを学ぶ必要性を助長する。
論文 参考訳(メタデータ) (2025-03-22T22:13:14Z) - Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution [16.460751105639623]
本稿では,新しいレンジベースの解釈・操作フレームワークであるNeuronLensを紹介する。
これは、ニューロン内の概念帰属を局在させるために、ニューロンの活性化分布のより詳細なビューを提供する。
論文 参考訳(メタデータ) (2025-02-04T03:33:55Z) - Deception in LLMs: Self-Preservation and Autonomous Goals in Large Language Models [0.0]
大規模言語モデルの最近の進歩には、計画と推論能力が組み込まれている。
これにより、数学的および論理的タスクにおける誤りを低減し、精度を向上した。
本研究では,OpenAIのo1に似た推論トークンを出力するモデルであるDeepSeek R1について検討した。
論文 参考訳(メタデータ) (2025-01-27T21:26:37Z) - Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた
最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。
本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。
このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文 参考訳(メタデータ) (2024-10-25T13:15:17Z) - Self-Attention Limits Working Memory Capacity of Transformer-Based Models [0.46040036610482665]
Transformerベースの大規模言語モデル(LLMs)に関する最近の研究は、ワーキングメモリ容量の大幅な制限を明らかにしている。
具体的には、これらのモデルの性能は N が増加するにつれて N-back タスクに著しく低下する。
行動科学からエグゼクティブ・アテンション理論に触発された我々は、自己認識メカニズムが作業記憶能力の限界に寄与するかもしれないと仮説を立てた。
論文 参考訳(メタデータ) (2024-09-16T20:38:35Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Exploring the LLM Journey from Cognition to Expression with Linear Representations [10.92882688742428]
本稿では,大規模言語モデル(LLM)における認知的・表現的能力の進化と相互作用について,詳細な検討を行う。
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)の3つの重要なフェーズにまたがる線形表現を通して、モデルの認知的・表現的能力を定義し、探求する。
SFT, RLHFでは, 認知能力が発達する傾向がみられ, 認知能力が発達する傾向がみられた。
論文 参考訳(メタデータ) (2024-05-27T08:57:04Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Probing Large Language Models from A Human Behavioral Perspective [24.109080140701188]
大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。
フィードフォワードネットワーク (FFN) やマルチヘッド・セルフアテンション (MHSA) などの予測プロセスや内部メカニズムの理解はいまだに未解明のままである。
論文 参考訳(メタデータ) (2023-10-08T16:16:21Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。