論文の概要: Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space
- arxiv url: http://arxiv.org/abs/2604.12016v1
- Date: Mon, 13 Apr 2026 20:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.100438
- Title: Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space
- Title(参考訳): トラクターとしてのアイデンティティ: LLM活性化空間における永続エージェントアーキテクチャのための幾何学的エビデンス
- Authors: Vladimir Vasilenko,
- Abstract要約: 大きな言語モデルは、意味的に関連するプロンプトを同様の内部表現にマッピングする。
永続的認知エージェントの同一性文書が、類似のアトラクション様の行動を示すかどうかを問う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models map semantically related prompts to similar internal representations -- a phenomenon interpretable as attractor-like dynamics. We ask whether the identity document of a persistent cognitive agent (its cognitive_core) exhibits analogous attractor-like behavior. We present a controlled experiment on Llama 3.1 8B Instruct, comparing hidden states of an original cognitive_core (Condition A), seven paraphrases (Condition B), and seven structurally matched controls (Condition C). Mean-pooled states at layers 8, 16, and 24 show that paraphrases converge to a tighter cluster than controls (Cohen's d > 1.88, p < 10^{-27}, Bonferroni-corrected). Replication on Gemma 2 9B confirms cross-architecture generalizability. Ablations suggest the effect is primarily semantic rather than structural, and that structural completeness appears necessary to reach the attractor region. An exploratory experiment shows that reading a scientific description of the agent shifts internal state toward the attractor -- closer than a sham preprint -- distinguishing knowing about an identity from operating as that identity. These results provide representational evidence that agent identity documents induce attractor-like geometry in LLM activation space.
- Abstract(参考訳): 大きな言語モデルは、意味的に関連するプロンプトを、同様の内部表現にマッピングする。
持続的認知エージェント(認知_core)の同一性文書が、類似したアトラクション的行動を示すかどうかを問う。
我々はLlama 3.1 8Bインストラクションの制御実験を行い、元の認知_core(Condition A)と7つのパラフレーズ(Condition B)と7つの構造整合制御(Condition C)の隠れ状態を比較した。
8, 16, 24の平均プール状態は、パラフレーズが制御よりも厳密なクラスタに収束することを示している(Cohen's d > 1.88, p < 10^{-27}, Bonferroni-corrected)。
Gemma 2 9Bの複製はアーキテクチャ間の一般化性を確認する。
アブレーションは、この効果は主に構造的ではなく意味論的であり、魅力のある領域に到達するためには構造的完全性が必要であることを示唆している。
探索的な実験では、エージェントの科学的記述を読み取ると、内部状態が、シャムの事前印刷に近い、引き付け者に向かってシフトし、アイデンティティをそのアイデンティティとして動作することと区別することを示している。
これらの結果は、エージェントID文書がLLMアクティベーション空間におけるアトラクタのような幾何学を誘導する、という表現的証拠を提供する。
関連論文リスト
- Detecting LLM Hallucinations via Embedding Cluster Geometry: A Three-Type Taxonomy with Measurable Signatures [0.0]
トークン埋め込みクラスタ構造における観測可能なシグネチャに基づく大規模言語モデル幻覚の幾何学的分類法を提案する。
そこで本研究では,弱い環境下での1型(中心ドリフト)と,局所的コヒーレントだが文脈的に不正確なクラスタ領域への2型(ロングウェルコンバージェンス)と,クラスター構造が存在しない3型(カバーギャップ)の3つの機能的に異なる幻覚型を同定した。
論文 参考訳(メタデータ) (2026-02-15T18:14:10Z) - A Geometric Taxonomy of Hallucinations in LLMs [0.2538209532048866]
大きな言語モデルにおける「幻覚」という用語は、埋め込み空間における異なる幾何学的シグネチャと異なる現象を混同している。
本稿では,不信感,信頼感,事実的誤りの3つのタイプを識別する分類法を提案する。
この貢献は、埋め込みに基づく検出の範囲を明確にした幾何学的分類法である。
論文 参考訳(メタデータ) (2026-01-26T22:07:09Z) - Structured Episodic Event Memory [37.643537420763344]
本研究では,リレーショナル事実のためのグラフメモリ層と,物語進行のための動的エピソディックメモリ層を相乗化する階層型フレームワークである構造化エピソディックイベントメモリ(SEEM)を提案する。
LoCoMoとLongMemEvalのベンチマーク実験の結果、SEEMはベースラインを大幅に上回ることが示された。
論文 参考訳(メタデータ) (2026-01-10T03:17:25Z) - Milestones over Outcome: Unlocking Geometric Reasoning with Sub-Goal Verifiable Reward [67.00373428443879]
サブゴールレベルの評価と学習へのパラダイムシフトを導入する。
まず,厳密な形式検証データエンジンを用いたベンチマークであるGeoGoalを構築した。
本研究では,スケルトンレートに基づいて,スパース信号を高密度な報酬に置き換えるサブゴール検証リワード(SGVR)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T16:17:56Z) - Mechanistic Interpretability of GPT-2: Lexical and Contextual Layers in Sentiment Analysis [0.0]
我々は,早期語彙検出と中層文脈統合を含む仮説化された2段階感情アーキテクチャを検証した。
実験により、初期層(0-3)が語彙的感情検知器として機能し、文脈に依存しない安定した位置特異的極性信号を符号化した。
中層特殊化の代わりに, 否定, 皮肉, ドメインシフトなどの文脈現象が, 統合された非モジュラー機構によって, 主に後期層(8-11)に集積されることが判明した。
論文 参考訳(メタデータ) (2025-12-07T06:36:35Z) - Beyond Inference Intervention: Identity-Decoupled Diffusion for Face Anonymization [55.29071072675132]
顔の匿名化は、非同一性属性を保持しながら、識別情報を隠蔽することを目的としている。
トレーニング中心の匿名化フレームワークである textbfIDsuperscript2Face を提案する。
IDtextsuperscript2Faceは、視覚的品質、アイデンティティの抑制、ユーティリティ保存において、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-28T09:28:12Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - Identifiable Exchangeable Mechanisms for Causal Structure and Representation Learning [54.69189620971405]
IEM(Identible Exchangeable Mechanisms)と呼ばれる,表現と構造学習のための統合フレームワークを提供する。
IEMは、交換可能な非i.d.データにおける因果構造同定に必要な条件を緩和する新しい洞察を提供する。
また、認識可能な表現学習における双対性条件の存在を実証し、新たな識別可能性結果をもたらす。
論文 参考訳(メタデータ) (2024-06-20T13:30:25Z) - Influence of the Geometry of the world model on Curiosity Based
Exploration [1.4461582662466375]
人間の空間認識においては、3次元射影幾何学は情報統合と行動計画を構成する。
情報統合と行動計画において,幾何が重要な役割を果たすかを示す。
論文 参考訳(メタデータ) (2023-04-01T00:56:06Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。