Fugu-MT 論文翻訳(概要): Causal Abstraction for Faithful Model Interpretation

論文の概要: Causal Abstraction for Faithful Model Interpretation

arxiv url: http://arxiv.org/abs/2301.04709v1
Date: Wed, 11 Jan 2023 20:42:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-13 14:19:55.535395
Title: Causal Abstraction for Faithful Model Interpretation
Title（参考訳）: 忠実なモデル解釈のための因果的抽象化
Authors: Atticus Geiger and Chris Potts and Thomas Icard
Abstract要約: AIモデルの振る舞いと内部構造に関する忠実で解釈可能な説明は、人間には理解できないが、既知のが、しばしば不透明な低レベルの因果関係の詳細と矛盾する高レベルな説明である。因果的抽象分析では、モデル内部の状態に対する介入を用いて、解釈可能な高レベル因果的モデルがAIモデルの忠実な記述であるかどうかを厳格に評価する。
参考スコア（独自算出の注目度）: 7.3185771983295185
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A faithful and interpretable explanation of an AI model's behavior and internal structure is a high-level explanation that is human-intelligible but also consistent with the known, but often opaque low-level causal details of the model. We argue that the theory of causal abstraction provides the mathematical foundations for the desired kinds of model explanations. In causal abstraction analysis, we use interventions on model-internal states to rigorously assess whether an interpretable high-level causal model is a faithful description of an AI model. Our contributions in this area are: (1) We generalize causal abstraction to cyclic causal structures and typed high-level variables. (2) We show how multi-source interchange interventions can be used to conduct causal abstraction analyses. (3) We define a notion of approximate causal abstraction that allows us to assess the degree to which a high-level causal model is a causal abstraction of a lower-level one. (4) We prove constructive causal abstraction can be decomposed into three operations we refer to as marginalization, variable-merge, and value-merge. (5) We formalize the XAI methods of LIME, causal effect estimation, causal mediation analysis, iterated nullspace projection, and circuit-based explanations as special cases of causal abstraction analysis.
Abstract（参考訳）: aiモデルの振る舞いと内部構造に関する忠実で解釈可能な説明は、人間の知性は高いが、既知の、しかししばしば不透明なモデルの因果的詳細と一致している高レベルの説明である。因果的抽象の理論は、望ましいモデル説明の数学的基礎を提供すると主張する。因果抽象化解析では、モデル内部の状態に対する介入を用いて、解釈可能な高レベル因果モデルがAIモデルの忠実な記述であるかどうかを厳格に評価する。 1) 因果抽象を循環因果構造と型付き高レベル変数に一般化する。 2) 因果的抽象分析を行うためにマルチソースインターチェンジをいかに活用できるかを示す。 (3)高次因果モデルが下位レベルの因果的抽象化の因果的抽象化である程度を評価することができるような因果的抽象化の概念を定義する。 (4) 構成因果抽象は, 余剰化, 変数マージ, 値マージの3つの操作に分解できることを示す。 (5) LIME, 因果効果推定, 因果媒介分析, 繰り返しヌル空間投影, 回路に基づく説明のXAI法を因果抽象解析の特別な場合として定式化する。

関連論文リスト

Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [76.42159902257677]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。 OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文参考訳（メタデータ） (2025-06-12T16:50:45Z)
Information Science Principles of Machine Learning: A Causal Chain Meta-Framework Based on Formalized Information Mapping [1.145820303039203]
本研究は、機械学習における統一的な論理的枠組みの欠如に対処することに焦点を当てる。モデル解釈可能性と倫理的安全性に関する普遍的な定義が提案されている。 3つの重要な定理は、モデル解釈可能性と情報回復可能性の等価性、倫理的安全性の保証、一般化誤差の推定である。
論文参考訳（メタデータ） (2025-05-19T14:39:41Z)
A Mathematical Philosophy of Explanations in Mechanistic Interpretability -- The Strange Science Part I.i [0.0]
我々は、機械的解釈可能性の研究は、モデルを理解するための原則的なアプローチであると主張している。説明的忠実性(Explainatory Faithfulness)は、説明がモデルにどの程度適合するかを評価する。
論文参考訳（メタデータ） (2025-05-01T19:08:34Z)
Mechanistic Unveiling of Transformer Circuits: Self-Influence as a Key to Model Reasoning [9.795934690403374]
このような課題を解決するために言語モデルでどのような多段階推論機構が使われているのかはいまだ不明である。回路解析と自己影響関数を用いて、推論過程を通して各トークンの変動の重要性を評価する。提案手法は,モデルが使用する人間の解釈可能な推論過程を明らかにする。
論文参考訳（メタデータ） (2025-02-13T07:19:05Z)
Causal Abstraction in Model Interpretability: A Compact Survey [5.963324728136442]
因果的抽象化は、モデル行動の基礎となる因果的メカニズムを理解し説明するための原則化されたアプローチを提供する。本研究は, 因果的抽象の領域を掘り下げ, その理論的基礎, 実践的応用, モデル解釈可能性の分野への含意について考察する。
論文参考訳（メタデータ） (2024-10-26T12:24:28Z)
A Mechanistic Interpretation of Syllogistic Reasoning in Auto-Regressive Language Models [13.59675117792588]
自己回帰言語モデル(LM)における論理的推論に関する最近の研究は、そのようなモデルが事前学習中に体系的推論原理を学習できるかという議論を引き起こしている。本稿では, 内部力学の理解を深めるため, LMにおけるシロメトリクス推論の機械論的解釈を提案する。
論文参考訳（メタデータ） (2024-08-16T07:47:39Z)
Mechanistically Interpreting a Transformer-based 2-SAT Solver: An Axiomatic Approach [28.336108192282737]
機械的解釈可能性(Mechanistic Interpretability)は、内部コンポーネントの観点からニューラルネットワークが実行する計算をリバースエンジニアリングすることを目的としている。解析対象のニューラルネットワークのセマンティクスを概ね捉えた記述として,機械的解釈を形式的に特徴づける公理の集合を与える。解析モデルの機械論的解釈が、実際に記述された公理を満たすことを裏付ける証拠を提示する。
論文参考訳（メタデータ） (2024-07-18T15:32:44Z)
The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文参考訳（メタデータ） (2024-05-24T07:41:26Z)
Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文参考訳（メタデータ） (2024-05-10T17:11:31Z)
An Encoding of Abstract Dialectical Frameworks into Higher-Order Logic [57.24311218570012]
このアプローチは抽象弁証法フレームワークのコンピュータ支援分析を可能にする。応用例としては、メタ理論的性質の形式的解析と検証がある。
論文参考訳（メタデータ） (2023-12-08T09:32:26Z)
AS-XAI: Self-supervised Automatic Semantic Interpretation for CNN [5.42467030980398]
本稿では,自動意味解釈人工知能(AS-XAI)フレームワークを提案する。モデル決定のグローバルな意味解釈には、透過的な埋め込み意味抽出空間と行中心主成分分析(PCA)を用いる。提案手法は, 流通圏内における共通意味論的解釈を含む, 広範囲な実践的応用を提供する。
論文参考訳（メタデータ） (2023-12-02T10:06:54Z)
Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文参考訳（メタデータ） (2023-09-02T22:14:26Z)
Modeling Hierarchical Reasoning Chains by Linking Discourse Units and Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文参考訳（メタデータ） (2023-06-21T07:34:27Z)
Finding Alignments Between Interpretable Causal Variables and Distributed Neural Representations [62.65877150123775]
因果抽象化は、説明可能な人工知能のための有望な理論的枠組みである。既存の因果抽象法では、高レベルモデルと低レベルモデルの間のアライメントをブルートフォースで探索する必要がある。これらの制約を克服する分散アライメントサーチ(DAS)を提案する。
論文参考訳（メタデータ） (2023-03-05T00:57:49Z)
Discovering Latent Causal Variables via Mechanism Sparsity: A New Principle for Nonlinear ICA [81.4991350761909]
ICA(Independent component analysis)は、この目的を定式化し、実用的な応用のための推定手順を提供する手法の集合を指す。潜伏変数は、潜伏機構をスパースに正則化すれば、置換まで復元可能であることを示す。
論文参考訳（メタデータ） (2021-07-21T14:22:14Z)
Plausible Reasoning about EL-Ontologies using Concept Interpolation [27.314325986689752]
本稿では,モデル理論の明確な意味論に基づく帰納的機構を提案する。我々は、カテゴリーベース誘導の認知モデルと密接に関連している強力なコモンセンス推論機構である推論に焦点を当てた。
論文参考訳（メタデータ） (2020-06-25T14:19:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。