論文の概要: Causal Abstraction for Faithful Model Interpretation
- arxiv url: http://arxiv.org/abs/2301.04709v1
- Date: Wed, 11 Jan 2023 20:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 14:19:55.535395
- Title: Causal Abstraction for Faithful Model Interpretation
- Title(参考訳): 忠実なモデル解釈のための因果的抽象化
- Authors: Atticus Geiger and Chris Potts and Thomas Icard
- Abstract要約: AIモデルの振る舞いと内部構造に関する忠実で解釈可能な説明は、人間には理解できないが、既知のが、しばしば不透明な低レベルの因果関係の詳細と矛盾する高レベルな説明である。
因果的抽象分析では、モデル内部の状態に対する介入を用いて、解釈可能な高レベル因果的モデルがAIモデルの忠実な記述であるかどうかを厳格に評価する。
- 参考スコア(独自算出の注目度): 7.3185771983295185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A faithful and interpretable explanation of an AI model's behavior and
internal structure is a high-level explanation that is human-intelligible but
also consistent with the known, but often opaque low-level causal details of
the model. We argue that the theory of causal abstraction provides the
mathematical foundations for the desired kinds of model explanations. In causal
abstraction analysis, we use interventions on model-internal states to
rigorously assess whether an interpretable high-level causal model is a
faithful description of an AI model. Our contributions in this area are: (1) We
generalize causal abstraction to cyclic causal structures and typed high-level
variables. (2) We show how multi-source interchange interventions can be used
to conduct causal abstraction analyses. (3) We define a notion of approximate
causal abstraction that allows us to assess the degree to which a high-level
causal model is a causal abstraction of a lower-level one. (4) We prove
constructive causal abstraction can be decomposed into three operations we
refer to as marginalization, variable-merge, and value-merge. (5) We formalize
the XAI methods of LIME, causal effect estimation, causal mediation analysis,
iterated nullspace projection, and circuit-based explanations as special cases
of causal abstraction analysis.
- Abstract(参考訳): aiモデルの振る舞いと内部構造に関する忠実で解釈可能な説明は、人間の知性は高いが、既知の、しかししばしば不透明なモデルの因果的詳細と一致している高レベルの説明である。
因果的抽象の理論は、望ましいモデル説明の数学的基礎を提供すると主張する。
因果抽象化解析では、モデル内部の状態に対する介入を用いて、解釈可能な高レベル因果モデルがAIモデルの忠実な記述であるかどうかを厳格に評価する。
1) 因果抽象を循環因果構造と型付き高レベル変数に一般化する。
2) 因果的抽象分析を行うためにマルチソースインターチェンジをいかに活用できるかを示す。
(3)高次因果モデルが下位レベルの因果的抽象化の因果的抽象化である程度を評価することができるような因果的抽象化の概念を定義する。
(4) 構成因果抽象は, 余剰化, 変数マージ, 値マージの3つの操作に分解できることを示す。
(5) LIME, 因果効果推定, 因果媒介分析, 繰り返しヌル空間投影, 回路に基づく説明のXAI法を因果抽象解析の特別な場合として定式化する。
関連論文リスト
- Causal Abstraction in Model Interpretability: A Compact Survey [5.963324728136442]
因果的抽象化は、モデル行動の基礎となる因果的メカニズムを理解し説明するための原則化されたアプローチを提供する。
本研究は, 因果的抽象の領域を掘り下げ, その理論的基礎, 実践的応用, モデル解釈可能性の分野への含意について考察する。
論文 参考訳(メタデータ) (2024-10-26T12:24:28Z) - A Mechanistic Interpretation of Syllogistic Reasoning in Auto-Regressive Language Models [13.59675117792588]
自己回帰言語モデル(LM)における論理的推論に関する最近の研究は、そのようなモデルが事前学習中に体系的推論原理を学習できるかという議論を引き起こしている。
本稿では, 内部力学の理解を深めるため, LMにおけるシロメトリクス推論の機械論的解釈を提案する。
論文 参考訳(メタデータ) (2024-08-16T07:47:39Z) - Mechanistically Interpreting a Transformer-based 2-SAT Solver: An Axiomatic Approach [28.336108192282737]
機械的解釈可能性(Mechanistic Interpretability)は、内部コンポーネントの観点からニューラルネットワークが実行する計算をリバースエンジニアリングすることを目的としている。
解析対象のニューラルネットワークのセマンティクスを概ね捉えた記述として,機械的解釈を形式的に特徴づける公理の集合を与える。
解析モデルの機械論的解釈が、実際に記述された公理を満たすことを裏付ける証拠を提示する。
論文 参考訳(メタデータ) (2024-07-18T15:32:44Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - An Encoding of Abstract Dialectical Frameworks into Higher-Order Logic [57.24311218570012]
このアプローチは抽象弁証法フレームワークのコンピュータ支援分析を可能にする。
応用例としては、メタ理論的性質の形式的解析と検証がある。
論文 参考訳(メタデータ) (2023-12-08T09:32:26Z) - AS-XAI: Self-supervised Automatic Semantic Interpretation for CNN [5.42467030980398]
本稿では,自動意味解釈人工知能(AS-XAI)フレームワークを提案する。
モデル決定のグローバルな意味解釈には、透過的な埋め込み意味抽出空間と行中心主成分分析(PCA)を用いる。
提案手法は, 流通圏内における共通意味論的解釈を含む, 広範囲な実践的応用を提供する。
論文 参考訳(メタデータ) (2023-12-02T10:06:54Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - Finding Alignments Between Interpretable Causal Variables and
Distributed Neural Representations [62.65877150123775]
因果抽象化は、説明可能な人工知能のための有望な理論的枠組みである。
既存の因果抽象法では、高レベルモデルと低レベルモデルの間のアライメントをブルートフォースで探索する必要がある。
これらの制約を克服する分散アライメントサーチ(DAS)を提案する。
論文 参考訳(メタデータ) (2023-03-05T00:57:49Z) - Plausible Reasoning about EL-Ontologies using Concept Interpolation [27.314325986689752]
本稿では,モデル理論の明確な意味論に基づく帰納的機構を提案する。
我々は、カテゴリーベース誘導の認知モデルと密接に関連している強力なコモンセンス推論機構である推論に焦点を当てた。
論文 参考訳(メタデータ) (2020-06-25T14:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。