論文の概要: LLM Interpretability with Identifiable Temporal-Instantaneous Representation
- arxiv url: http://arxiv.org/abs/2509.23323v1
- Date: Sat, 27 Sep 2025 14:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.161137
- Title: LLM Interpretability with Identifiable Temporal-Instantaneous Representation
- Title(参考訳): 時間的即時表現によるLLMの解釈可能性
- Authors: Xiangchen Song, Jiaqi Sun, Zijian Li, Yujia Zheng, Kun Zhang,
- Abstract要約: 本稿では,大規模言語モデルに特化して設計された時間的因果表現学習フレームワークを提案する。
提案手法は,実世界の複雑性に合わせてスケールした合成データセットに対して,理論的保証と有効性を示す。
- 参考スコア(独自算出の注目度): 18.671694445771113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite Large Language Models' remarkable capabilities, understanding their internal representations remains challenging. Mechanistic interpretability tools such as sparse autoencoders (SAEs) were developed to extract interpretable features from LLMs but lack temporal dependency modeling, instantaneous relation representation, and more importantly theoretical guarantees, undermining both the theoretical foundations and the practical confidence necessary for subsequent analyses. While causal representation learning (CRL) offers theoretically grounded approaches for uncovering latent concepts, existing methods cannot scale to LLMs' rich conceptual space due to inefficient computation. To bridge the gap, we introduce an identifiable temporal causal representation learning framework specifically designed for LLMs' high-dimensional concept space, capturing both time-delayed and instantaneous causal relations. Our approach provides theoretical guarantees and demonstrates efficacy on synthetic datasets scaled to match real-world complexity. By extending SAE techniques with our temporal causal framework, we successfully discover meaningful concept relationships in LLM activations. Our findings show that modeling both temporal and instantaneous conceptual relationships advances the interpretability of LLMs.
- Abstract(参考訳): 大きな言語モデルの優れた能力にもかかわらず、内部表現を理解することは依然として困難である。
スパースオートエンコーダ (SAE) などの機械的解釈可能性ツールを開発し, LLM から解釈可能な特徴を抽出するが, 時間的依存モデリング, 即時関係表現, より重要な理論的保証を欠いている。
因果表現学習(CRL)は、潜在概念を明らかにするための理論的に基礎的なアプローチを提供するが、既存の手法では非効率な計算のためにLLMの豊富な概念空間にスケールできない。
このギャップを埋めるために,LLMの高次元概念空間に特化して設計された時間的因果表現学習フレームワークを導入する。
提案手法は,実世界の複雑性に合わせてスケールした合成データセットに対して,理論的保証と有効性を示す。
SAE手法を時間的因果関係で拡張することにより,LLMアクティベーションにおける意味ある概念関係の発見に成功した。
その結果, 時間的・即時的な概念的関係のモデル化がLLMの解釈可能性を向上させることが示唆された。
関連論文リスト
- Sound and Complete Neurosymbolic Reasoning with LLM-Grounded Interpretations [7.81820080453498]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
パラ一貫性論理に対する形式的意味論の解釈関数に LLM を直接統合する手法を提案する。
論文 参考訳(メタデータ) (2025-07-13T19:05:43Z) - Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:54:57Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Unveiling LLMs: The Evolution of Latent Representations in a Dynamic Knowledge Graph [15.129079475322637]
この研究は、大規模言語モデルが文レベルのクレーム検証のために内部的に表現する事実情報を明らかにする。
本稿では,トークン表現に埋め込まれた事実知識をベクトル空間から基底述語集合にデコードするエンド・ツー・エンドのフレームワークを提案する。
本フレームワークでは,推論中にトークン表現を変更するベクトルレベル手法であるアクティベーションパッチを用いて,符号化された知識を抽出する。
論文 参考訳(メタデータ) (2024-04-04T17:45:59Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。