論文の概要: Dissociating Direct Access from Inference in AI Introspection
- arxiv url: http://arxiv.org/abs/2603.05414v1
- Date: Thu, 05 Mar 2026 17:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.347429
- Title: Dissociating Direct Access from Inference in AI Introspection
- Title(参考訳): AIイントロスペクションにおける推論からの直接アクセスの解離
- Authors: Harvey Lederman, Kyle Mahowald,
- Abstract要約: 最近の研究によると、AIモデルはイントロスペクション可能である。
これらのモデルが2つの分離可能なメカニズムによって注入された表現を検出することを示す。
この内容に依存しない内観のメカニズムは、哲学や心理学における主要な理論と一致している。
- 参考スコア(独自算出の注目度): 11.31435294855236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Introspection is a foundational cognitive ability, but its mechanism is not well understood. Recent work has shown that AI models can introspect. We study their mechanism of introspection, first extensively replicating Lindsey et al. (2025)'s thought injection detection paradigm in large open-source models. We show that these models detect injected representations via two separable mechanisms: (i) probability-matching (inferring from perceived anomaly of the prompt) and (ii) direct access to internal states. The direct access mechanism is content-agnostic: models detect that an anomaly occurred but cannot reliably identify its semantic content. The two model classes we study confabulate injected concepts that are high-frequency and concrete (e.g., "apple'"); for them correct concept guesses typically require significantly more tokens. This content-agnostic introspective mechanism is consistent with leading theories in philosophy and psychology.
- Abstract(参考訳): イントロスペクションは基本的な認知能力であるが、そのメカニズムはよく理解されていない。
最近の研究によると、AIモデルはイントロスペクション可能である。
本稿では,Linsey et al (2025) の思考注入検出パラダイムを大規模なオープンソースモデルで広範囲に再現したイントロスペクションのメカニズムについて検討する。
これらのモデルが2つの分離可能なメカニズムを介して注入表現を検出することを示す。
(i)確率マッチング(プロンプトの知覚異常から推測される)、
(二)内国への直接アクセス
モデルは異常が発生したが、そのセマンティックな内容が確実に識別できないことを検知する。
私たちが研究する2つのモデルクラスは、高頻度で具体的(例えば、"apple'")な射出射出概念である。
この内容に依存しない内観のメカニズムは、哲学や心理学における主要な理論と一致している。
関連論文リスト
- Feeling the Strength but Not the Source: Partial Introspection in LLMs [0.0]
人類学的な主張では、フロンティアモデルは時々、活性化方向として表される「概念」を検知し、名前を付けることができる。
われわれは、Meta-Llama-3.1-8B-Instruct上で、Arthropicのマルチターン「エマージェントイントロスペクション」の結果を再現する。
イントロスペクションは、非常に大きなモデルや有能なモデルに限らない。
論文 参考訳(メタデータ) (2025-12-13T17:51:13Z) - Know Thyself? On the Incapability and Implications of AI Self-Recognition [22.582593406983907]
自己認識は、心理的分析だけでなく、安全性にも関係する、AIシステムにとって重要なメタ認知能力である。
適用や更新が容易なシステム評価フレームワークを導入する。
10の現代的大規模言語モデル(LLM)が、他のモデルからのテキストに対して、それぞれの生成したテキストをどの程度正確に識別できるかを測定する。
論文 参考訳(メタデータ) (2025-10-03T18:00:01Z) - Understanding Matching Mechanisms in Cross-Encoders [11.192264101562786]
クロスエンコーダは、内部メカニズムがほとんど不明な非常に効果的なモデルである。
ほとんどの作業は、ハイレベルなプロセスに重点を置いている。
より簡単な方法が、すでに価値ある洞察を提供できることを実証します。
論文 参考訳(メタデータ) (2025-07-19T13:05:27Z) - Meta-Representational Predictive Coding: Biomimetic Self-Supervised Learning [51.22185316175418]
メタ表現予測符号化(MPC)と呼ばれる新しい予測符号化方式を提案する。
MPCは、並列ストリームにまたがる感覚入力の表現を予測することを学ぶことによって、感覚入力の生成モデルを学ぶ必要性を助長する。
論文 参考訳(メタデータ) (2025-03-22T22:13:14Z) - Class-wise Activation Unravelling the Engima of Deep Double Descent [0.0]
二重降下は、機械学習領域内の反直観的な側面を示す。
本研究では,二重降下現象を再考し,その発生状況について考察した。
論文 参考訳(メタデータ) (2024-05-13T12:07:48Z) - Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals [82.68757839524677]
解釈可能性研究は、経験的成功と大規模言語モデル(LLM)の科学的理解のギャップを埋めることを目的としている。
本稿では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目した,メカニズムの競合の定式化を提案する。
本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T17:26:51Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Properties from Mechanisms: An Equivariance Perspective on Identifiable
Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。
この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。
我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文 参考訳(メタデータ) (2021-10-29T14:04:08Z) - ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。
Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。
純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文 参考訳(メタデータ) (2021-03-26T02:42:38Z) - Plausible Reasoning about EL-Ontologies using Concept Interpolation [27.314325986689752]
本稿では,モデル理論の明確な意味論に基づく帰納的機構を提案する。
我々は、カテゴリーベース誘導の認知モデルと密接に関連している強力なコモンセンス推論機構である推論に焦点を当てた。
論文 参考訳(メタデータ) (2020-06-25T14:19:41Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。