論文の概要: LLM Interpretability with Identifiable Temporal-Instantaneous Representation
- arxiv url: http://arxiv.org/abs/2509.23323v1
- Date: Sat, 27 Sep 2025 14:14:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.161137
- Title: LLM Interpretability with Identifiable Temporal-Instantaneous Representation
- Title(参考訳): 時間的即時表現によるLLMの解釈可能性
- Authors: Xiangchen Song, Jiaqi Sun, Zijian Li, Yujia Zheng, Kun Zhang,
- Abstract要約: 本稿では,大規模言語モデルに特化して設計された時間的因果表現学習フレームワークを提案する。
提案手法は,実世界の複雑性に合わせてスケールした合成データセットに対して,理論的保証と有効性を示す。
- 参考スコア(独自算出の注目度): 18.671694445771113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite Large Language Models' remarkable capabilities, understanding their internal representations remains challenging. Mechanistic interpretability tools such as sparse autoencoders (SAEs) were developed to extract interpretable features from LLMs but lack temporal dependency modeling, instantaneous relation representation, and more importantly theoretical guarantees, undermining both the theoretical foundations and the practical confidence necessary for subsequent analyses. While causal representation learning (CRL) offers theoretically grounded approaches for uncovering latent concepts, existing methods cannot scale to LLMs' rich conceptual space due to inefficient computation. To bridge the gap, we introduce an identifiable temporal causal representation learning framework specifically designed for LLMs' high-dimensional concept space, capturing both time-delayed and instantaneous causal relations. Our approach provides theoretical guarantees and demonstrates efficacy on synthetic datasets scaled to match real-world complexity. By extending SAE techniques with our temporal causal framework, we successfully discover meaningful concept relationships in LLM activations. Our findings show that modeling both temporal and instantaneous conceptual relationships advances the interpretability of LLMs.
- Abstract(参考訳): 大きな言語モデルの優れた能力にもかかわらず、内部表現を理解することは依然として困難である。
スパースオートエンコーダ (SAE) などの機械的解釈可能性ツールを開発し, LLM から解釈可能な特徴を抽出するが, 時間的依存モデリング, 即時関係表現, より重要な理論的保証を欠いている。
因果表現学習(CRL)は、潜在概念を明らかにするための理論的に基礎的なアプローチを提供するが、既存の手法では非効率な計算のためにLLMの豊富な概念空間にスケールできない。
このギャップを埋めるために,LLMの高次元概念空間に特化して設計された時間的因果表現学習フレームワークを導入する。
提案手法は,実世界の複雑性に合わせてスケールした合成データセットに対して,理論的保証と有効性を示す。
SAE手法を時間的因果関係で拡張することにより,LLMアクティベーションにおける意味ある概念関係の発見に成功した。
その結果, 時間的・即時的な概念的関係のモデル化がLLMの解釈可能性を向上させることが示唆された。
関連論文リスト
- Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning [62.680551162054975]
我々はLLMが動的要約によって推論ステップの粒度を自己制御することを学ぶエンドツーエンドのフレームワークを紹介した。
高い効率のFoldモードと徹底的なUnfoldモードの精度ギャップを徐々に狭めていくという重要な知見を見出し,この能力をさらにインセンティブ化するために強化学習を適用した。
私たちのAccordion-Thinkerは、学習した自己圧縮により、LLMは依存性トークンのオーバーヘッドを最小限に抑えながら複雑な推論タスクに取り組むことができることを示した。
論文 参考訳(メタデータ) (2026-02-03T08:34:20Z) - Concept Component Analysis: A Principled Approach for Concept Extraction in LLMs [51.378834857406325]
機械的解釈可能性(Mechanistic interpretability)は、大きな言語モデルからの抽出によって問題を緩和しようとする。
スパースオートエンコーダ (SAE) は、解釈可能・単意味的な概念を抽出するための一般的なアプローチである。
SAEは基本的な理論的曖昧さに悩まされており、LLM表現と人間解釈可能な概念との明確に定義された対応はいまだに不明である。
論文 参考訳(メタデータ) (2026-01-28T09:27:05Z) - NeSTR: A Neuro-Symbolic Abductive Framework for Temporal Reasoning in Large Language Models [12.935644609836507]
ニューロシンボリックテンポラル推論(Neuro-Symbolic Temporal Reasoning、NeSTR)は、構造的シンボル表現とハイブリッド反射推論を統合する新しいフレームワークである。
NeSTRはシンボリックエンコーディングを通じて明確な時間的関係を保ち、検証を通じて論理的一貫性を強制し、帰納的反射を用いて欠陥のある推論を修正する。
論文 参考訳(メタデータ) (2025-12-08T06:58:23Z) - Temporal Referential Consistency: Do LLMs Favor Sequences Over Absolute Time References? [21.90468150326666]
LLM(Large Language Model)は、知識ソースの代替品である。
LLMは現実的に正確でなければならないし、時間次元にわたって一貫性を示す必要がある。
この重要な要件にもかかわらず、LLMの時間的整合性を確保する努力は依然として不十分である。
論文 参考訳(メタデータ) (2025-10-17T10:33:48Z) - Sound and Complete Neurosymbolic Reasoning with LLM-Grounded Interpretations [7.81820080453498]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
パラ一貫性論理に対する形式的意味論の解釈関数に LLM を直接統合する手法を提案する。
論文 参考訳(メタデータ) (2025-07-13T19:05:43Z) - Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:54:57Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Unveiling LLMs: The Evolution of Latent Representations in a Dynamic Knowledge Graph [15.129079475322637]
この研究は、大規模言語モデルが文レベルのクレーム検証のために内部的に表現する事実情報を明らかにする。
本稿では,トークン表現に埋め込まれた事実知識をベクトル空間から基底述語集合にデコードするエンド・ツー・エンドのフレームワークを提案する。
本フレームワークでは,推論中にトークン表現を変更するベクトルレベル手法であるアクティベーションパッチを用いて,符号化された知識を抽出する。
論文 参考訳(メタデータ) (2024-04-04T17:45:59Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。