論文の概要: Causal Abstraction: A Theoretical Foundation for Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2301.04709v2
- Date: Sun, 7 Jul 2024 17:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 05:52:24.710758
- Title: Causal Abstraction: A Theoretical Foundation for Mechanistic Interpretability
- Title(参考訳): 因果的抽象化:機械的解釈可能性の理論的基礎
- Authors: Atticus Geiger, Duligur Ibeling, Amir Zur, Maheep Chaudhary, Sonakshi Chauhan, Jing Huang, Aryaman Arora, Zhengxuan Wu, Noah Goodman, Christopher Potts, Thomas Icard,
- Abstract要約: 因果抽象化は機械的解釈可能性の理論的基盤を提供する。
我々の貢献は、メカニズム置換から任意のメカニズム変換への因果的抽象化の理論の一般化である。
- 参考スコア(独自算出の注目度): 30.76910454663951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Causal abstraction provides a theoretical foundation for mechanistic interpretability, the field concerned with providing intelligible algorithms that are faithful simplifications of the known, but opaque low-level details of black box AI models. Our contributions are (1) generalizing the theory of causal abstraction from mechanism replacement (i.e., hard and soft interventions) to arbitrary mechanism transformation (i.e., functionals from old mechanisms to new mechanisms), (2) providing a flexible, yet precise formalization for the core concepts of modular features, polysemantic neurons, and graded faithfulness, and (3) unifying a variety of mechanistic interpretability methodologies in the common language of causal abstraction, namely activation and path patching, causal mediation analysis, causal scrubbing, causal tracing, circuit analysis, concept erasure, sparse autoencoders, differential binary masking, distributed alignment search, and activation steering.
- Abstract(参考訳): 因果的抽象化は、既知のが不透明なブラックボックスAIモデルの低レベル詳細を忠実に単純化する無知なアルゴリズムを提供する分野である、機械論的解釈可能性の理論的基盤を提供する。
本研究の貢献は,(1) 機構置換(ハードとソフトの介入)から任意の機構変換(例えば,古い機構から新しい機構への機能)への因果的抽象化理論の一般化,(2) モジュラー特徴,ポリセマンティックニューロン,次数的忠実性のコア概念の柔軟かつ正確な形式化,(3) 因果的抽象の共通言語,すなわち活性化と経路パッチング,因果的仲介分析,因果的追跡,因果的追跡,回路解析,概念消去,バイナリマスク,分散アライメント,アクティベーションステアリングといった機械的解釈可能性方法論の統一,である。
関連論文リスト
- Mechanistically Interpreting a Transformer-based 2-SAT Solver: An Axiomatic Approach [28.336108192282737]
機械的解釈可能性(Mechanistic Interpretability)は、内部コンポーネントの観点からニューラルネットワークが実行する計算をリバースエンジニアリングすることを目的としている。
解析対象のニューラルネットワークのセマンティクスを概ね捉えた記述として,機械的解釈を形式的に特徴づける公理の集合を与える。
解析モデルの機械論的解釈が、実際に記述された公理を満たすことを裏付ける証拠を提示する。
論文 参考訳(メタデータ) (2024-07-18T15:32:44Z) - Towards Understanding How Transformer Perform Multi-step Reasoning with Matching Operation [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
構築したデータセットの多段階推論においてTransformerが使用するマッチング機構について検討する。
本稿では,この現象に基づくモデル推論能力の上限に関する予想を提案する。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - An Encoding of Abstract Dialectical Frameworks into Higher-Order Logic [57.24311218570012]
このアプローチは抽象弁証法フレームワークのコンピュータ支援分析を可能にする。
応用例としては、メタ理論的性質の形式的解析と検証がある。
論文 参考訳(メタデータ) (2023-12-08T09:32:26Z) - AS-XAI: Self-supervised Automatic Semantic Interpretation for CNN [5.42467030980398]
本稿では,自動意味解釈人工知能(AS-XAI)フレームワークを提案する。
モデル決定のグローバルな意味解釈には、透過的な埋め込み意味抽出空間と行中心主成分分析(PCA)を用いる。
提案手法は, 流通圏内における共通意味論的解釈を含む, 広範囲な実践的応用を提供する。
論文 参考訳(メタデータ) (2023-12-02T10:06:54Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - Finding Alignments Between Interpretable Causal Variables and
Distributed Neural Representations [62.65877150123775]
因果抽象化は、説明可能な人工知能のための有望な理論的枠組みである。
既存の因果抽象法では、高レベルモデルと低レベルモデルの間のアライメントをブルートフォースで探索する必要がある。
これらの制約を克服する分散アライメントサーチ(DAS)を提案する。
論文 参考訳(メタデータ) (2023-03-05T00:57:49Z) - Abduction and Argumentation for Explainable Machine Learning: A Position
Survey [2.28438857884398]
本稿では, 推論の2つの原則形式として, 帰納法と論証法を提案する。
機械学習の中で彼らが果たせる基本的な役割を具体化します。
論文 参考訳(メタデータ) (2020-10-24T13:23:44Z) - Plausible Reasoning about EL-Ontologies using Concept Interpolation [27.314325986689752]
本稿では,モデル理論の明確な意味論に基づく帰納的機構を提案する。
我々は、カテゴリーベース誘導の認知モデルと密接に関連している強力なコモンセンス推論機構である推論に焦点を当てた。
論文 参考訳(メタデータ) (2020-06-25T14:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。