論文の概要: Can "consciousness" be observed from large language model (LLM) internal states? Dissecting LLM representations obtained from Theory of Mind test with Integrated Information Theory and Span Representation analysis
- arxiv url: http://arxiv.org/abs/2506.22516v1
- Date: Thu, 26 Jun 2025 13:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.440114
- Title: Can "consciousness" be observed from large language model (LLM) internal states? Dissecting LLM representations obtained from Theory of Mind test with Integrated Information Theory and Span Representation analysis
- Title(参考訳): 大規模言語モデル(LLM)の内部状態から「意識」を観察できるか?統合情報理論とスパン表現分析による心の理論から得られたLLM表現の分離
- Authors: Jingkai Li,
- Abstract要約: 統合情報理論(IIT)は意識現象を説明するための定量的枠組みを提供する。
我々は、このフレームワークの最新イテレーションであるIIT 3.0と4.0を、LLM(Large Language Model)表現のシーケンスに適用します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Integrated Information Theory (IIT) provides a quantitative framework for explaining consciousness phenomenon, positing that conscious systems comprise elements integrated through causal properties. We apply IIT 3.0 and 4.0 -- the latest iterations of this framework -- to sequences of Large Language Model (LLM) representations, analyzing data derived from existing Theory of Mind (ToM) test results. Our study systematically investigates whether the differences of ToM test performances, when presented in the LLM representations, can be revealed by IIT estimates, i.e., $\Phi^{\max}$ (IIT 3.0), $\Phi$ (IIT 4.0), Conceptual Information (IIT 3.0), and $\Phi$-structure (IIT 4.0). Furthermore, we compare these metrics with the Span Representations independent of any estimate for consciousness. This additional effort aims to differentiate between potential "consciousness" phenomena and inherent separations within LLM representational space. We conduct comprehensive experiments examining variations across LLM transformer layers and linguistic spans from stimuli. Our results suggest that sequences of contemporary Transformer-based LLM representations lack statistically significant indicators of observed "consciousness" phenomena but exhibit intriguing patterns under $\textit{spatio}$-permutational analyses. The Appendix and code are available as Supplementary Materials at: https://doi.org/10.1016/j.nlp.2025.100163.
- Abstract(参考訳): 統合情報理論(Integrated Information Theory, IIT)は意識現象を説明するための定量的枠組みを提供する。
我々は、このフレームワークの最新イテレーションであるIIT 3.0と4.0を、Large Language Model (LLM) 表現のシーケンスに適用し、既存のTheory of Mind (ToM)テスト結果から得られたデータを分析する。
LLM表現で示されるToMテスト性能の違いが、IIT推定値、すなわち、$\Phi^{\max}$ (IIT 3.0), $\Phi$ (IIT 4.0), Conceptual Information (IIT 3.0), $\Phi$-structure (IIT 4.0), $\Phi$-structure (IIT 4.0)によって明らかにできるかどうかを系統的に検討した。
さらに,これらの指標を,意識推定とは無関係にSpan Representationsと比較した。
この追加の取り組みは、LLM表現空間内の潜在的な「意識」現象と固有の分離を区別することを目的としている。
我々は,LLMトランスの層間および刺激からの言語的スパンの変動について,包括的実験を行った。
以上の結果から,現代のトランスフォーマーに基づくLLM表現のシーケンスは,観察された「意識」現象の統計的に有意な指標を欠いているが,$\textit{spatio}$-permutational analysisの下で興味深いパターンを示すことが示唆された。
Appendix とコードは https://doi.org/10.1016/j.nlp.2025.100163 でサプリメント・マテリアルとして利用可能である。
関連論文リスト
- Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - From Compression to Expansion: A Layerwise Analysis of In-Context Learning [20.64102133977965]
In-context Learning (ICL)は、大規模な言語モデルで、デモシーケンスから学習することで、重み付けなしで新しいタスクに適応することができる。
ICL表現の統計的幾何学的解析を行い,各層にまたがるタスク固有情報の取得方法について検討する。
この結果から,ILC の階層的ダイナミックな構造的表現が LLM 内でどのように現れるかが明らかとなり,内部表現の分析がモデル行動のより深い理解を促進することが示唆された。
論文 参考訳(メタデータ) (2025-05-22T22:22:03Z) - Illusion or Algorithm? Investigating Memorization, Emergence, and Symbolic Processing in In-Context Learning [48.67380502157004]
大規模トランスフォーマー言語モデル(LM)は、Webスケールデータによる次世代の予測のみを訓練することで、幅広いタスクを解決できる。
この能力の背後にあるメカニズムは、ICL(In-context Learning)と呼ばれ、議論の余地があり、理解が不十分なままである。
論文 参考訳(メタデータ) (2025-05-16T08:50:42Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Understanding Ranking LLMs: A Mechanistic Analysis for Information Retrieval [20.353393773305672]
我々は、LLMのランク付けにおけるニューロンの活性化を調べるために、探索に基づく分析を用いる。
本研究は,語彙信号,文書構造,問合せ文書間相互作用,複雑な意味表現など,幅広い機能カテゴリにまたがる。
我々の発見は、より透明で信頼性の高い検索システムを開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-24T08:20:10Z) - Unveiling LLMs: The Evolution of Latent Representations in a Dynamic Knowledge Graph [15.129079475322637]
この研究は、大規模言語モデルが文レベルのクレーム検証のために内部的に表現する事実情報を明らかにする。
本稿では,トークン表現に埋め込まれた事実知識をベクトル空間から基底述語集合にデコードするエンド・ツー・エンドのフレームワークを提案する。
本フレームワークでは,推論中にトークン表現を変更するベクトルレベル手法であるアクティベーションパッチを用いて,符号化された知識を抽出する。
論文 参考訳(メタデータ) (2024-04-04T17:45:59Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Towards Uncovering How Large Language Model Works: An Explainability Perspective [38.07611356855978]
大規模言語モデル(LLM)は言語タスクのブレークスルーをもたらしたが、その顕著な一般化と推論能力を実現する内部メカニズムは不透明のままである。
本稿では,LLM機能の基礎となるメカニズムを,説明可能性のレンズを通して明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-02-16T13:46:06Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。