Fugu-MT 論文翻訳(概要): Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations

論文の概要: Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations

arxiv url: http://arxiv.org/abs/2505.13763v1
Date: Mon, 19 May 2025 22:32:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:52.560764
Title: Language Models Are Capable of Metacognitive Monitoring and Control of Their Internal Activations
Title（参考訳）: メタ認知的モニタリングと内部活動の制御が可能な言語モデル
Authors: Li Ji-An, Hua-Dong Xiong, Robert C. Wilson, Marcelo G. Mattar, Marcus K. Benna,
Abstract要約: 大規模言語モデル(LLM)は、タスクの解決に実際に使用している戦略を報告することができるが、失敗することもある。これはメタ認知の程度、つまり、その後の報告と自己制御のために自分自身の認知プロセスを監視する能力を示している。我々は,LLMの活性化パターンを明示的に報告し,制御する能力を定量化するために,神経科学にインスパイアされた神経フィードバックパラダイムを導入する。
参考スコア（独自算出の注目度）: 1.0485739694839669
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) can sometimes report the strategies they actually use to solve tasks, but they can also fail to do so. This suggests some degree of metacognition -- the capacity to monitor one's own cognitive processes for subsequent reporting and self-control. Metacognitive abilities enhance AI capabilities but raise safety concerns, as models might obscure their internal processes to evade neural-activation-based oversight mechanisms designed to detect harmful behaviors. Given society's increased reliance on these models, it is critical that we understand the limits of their metacognitive abilities, particularly their ability to monitor their internal activations. To address this, we introduce a neuroscience-inspired neurofeedback paradigm designed to quantify the ability of LLMs to explicitly report and control their activation patterns. By presenting models with sentence-label pairs where labels correspond to sentence-elicited internal activations along specific directions in the neural representation space, we demonstrate that LLMs can learn to report and control these activations. The performance varies with several factors: the number of example pairs provided, the semantic interpretability of the target neural direction, and the variance explained by that direction. These results reveal a "metacognitive space" with dimensionality much lower than the model's neural space, suggesting LLMs can monitor only a subset of their neural mechanisms. Our findings provide empirical evidence quantifying metacognitive capabilities in LLMs, with significant implications for AI safety.
Abstract（参考訳）: 大規模言語モデル(LLM)は、タスクの解決に実際に使用している戦略を報告することができるが、失敗することもある。これはメタ認知の程度、つまり、その後の報告と自己制御のために自分自身の認知プロセスを監視する能力を示している。メタ認知能力はAI能力を向上するが、モデルが有害な行動を検出するように設計されたニューラルアクティベーションに基づく監視メカニズムを回避するために、内部プロセスが曖昧になる可能性があるため、安全上の懸念が高まる。社会がこれらのモデルに依存していることを考えると、メタ認知能力の限界、特に内部の活性化を監視する能力を理解することが重要である。そこで我々は,LLMの活性化パターンを明示的に報告し,制御する能力を定量化するために,神経科学にインスパイアされた神経フィードバックパラダイムを導入する。表現空間内の特定の方向に沿って,ラベルが文選択された内部アクティベーションに対応する文ラベルペアのモデルを提示することにより,LLMがこれらのアクティベーションを報告・制御できることを実証する。性能は、提供されたサンプルペアの数、対象の神経方向の意味的解釈可能性、そしてその方向によって説明される分散など、いくつかの要因によって異なる。これらの結果は、モデルの神経空間よりも次元がはるかに低い「メタ認知空間」を明らかにし、LLMは神経機構のサブセットのみを監視することができることを示唆している。我々の研究は、LLMのメタ認知能力を定量化する実証的な証拠を提供し、AIの安全性に重大な影響を及ぼす。

関連論文リスト

Why are LLMs' abilities emergent? [0.0]
系は他の複雑な自然現象に類似した真の創発性を示すと私は主張する。この視点は、これらのシステムが個々の定義を超越する能力を得ることを可能にする内部の動的変換を理解することに焦点を移す。
論文参考訳（メタデータ） (2025-08-06T12:43:04Z)
Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization [17.101290138120564]
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。 Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
論文参考訳（メタデータ） (2025-06-12T17:33:29Z)
Concept-Guided Interpretability via Neural Chunking [54.73787666584143]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。本稿では,ラベルの可利用性と次元性に基づいて,これら新たな実体を抽出する3つの手法を提案する。私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文参考訳（メタデータ） (2025-05-16T13:49:43Z)
Meta-Representational Predictive Coding: Biomimetic Self-Supervised Learning [51.22185316175418]
メタ表現予測符号化(MPC)と呼ばれる新しい予測符号化方式を提案する。 MPCは、並列ストリームにまたがる感覚入力の表現を予測することを学ぶことによって、感覚入力の生成モデルを学ぶ必要性を助長する。
論文参考訳（メタデータ） (2025-03-22T22:13:14Z)
Neurons Speak in Ranges: Breaking Free from Discrete Neuronal Attribution [16.460751105639623]
本稿では,新しいレンジベースの解釈・操作フレームワークであるNeuronLensを紹介する。これは、ニューロン内の概念帰属を局在させるために、ニューロンの活性化分布のより詳細なビューを提供する。
論文参考訳（メタデータ） (2025-02-04T03:33:55Z)
Deception in LLMs: Self-Preservation and Autonomous Goals in Large Language Models [0.0]
大規模言語モデルの最近の進歩には、計画と推論能力が組み込まれている。これにより、数学的および論理的タスクにおける誤りを低減し、精度を向上した。本研究では,OpenAIのo1に似た推論トークンを出力するモデルであるDeepSeek R1について検討した。
論文参考訳（メタデータ） (2025-01-27T21:26:37Z)
Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文参考訳（メタデータ） (2024-10-25T13:15:17Z)
Self-Attention Limits Working Memory Capacity of Transformer-Based Models [0.46040036610482665]
Transformerベースの大規模言語モデル(LLMs)に関する最近の研究は、ワーキングメモリ容量の大幅な制限を明らかにしている。具体的には、これらのモデルの性能は N が増加するにつれて N-back タスクに著しく低下する。行動科学からエグゼクティブ・アテンション理論に触発された我々は、自己認識メカニズムが作業記憶能力の限界に寄与するかもしれないと仮説を立てた。
論文参考訳（メタデータ） (2024-09-16T20:38:35Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
Exploring the LLM Journey from Cognition to Expression with Linear Representations [10.92882688742428]
本稿では,大規模言語モデル(LLM)における認知的・表現的能力の進化と相互作用について,詳細な検討を行う。人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)の3つの重要なフェーズにまたがる線形表現を通して、モデルの認知的・表現的能力を定義し、探求する。 SFT, RLHFでは, 認知能力が発達する傾向がみられ, 認知能力が発達する傾向がみられた。
論文参考訳（メタデータ） (2024-05-27T08:57:04Z)
Tuning-Free Accountable Intervention for LLM Deployment -- A Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文参考訳（メタデータ） (2024-03-08T19:18:53Z)
Probing Large Language Models from A Human Behavioral Perspective [24.109080140701188]
大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。フィードフォワードネットワーク (FFN) やマルチヘッド・セルフアテンション (MHSA) などの予測プロセスや内部メカニズムの理解はいまだに未解明のままである。
論文参考訳（メタデータ） (2023-10-08T16:16:21Z)
Backprop-Free Reinforcement Learning with Active Neural Generative Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文参考訳（メタデータ） (2021-07-10T19:02:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。