論文の概要: Combining Causal Models for More Accurate Abstractions of Neural Networks
- arxiv url: http://arxiv.org/abs/2503.11429v1
- Date: Fri, 14 Mar 2025 14:14:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:44.982546
- Title: Combining Causal Models for More Accurate Abstractions of Neural Networks
- Title(参考訳): ニューラルネットワークのより正確な抽象化のための因果モデルの組み合わせ
- Authors: Theodora-Mara Pîslar, Sara Magliacane, Atticus Geiger,
- Abstract要約: 因果抽象化は、ネットワークがアルゴリズムを実装した際の正確な概念を提供する。
現実的な設定における典型的な問題は、アルゴリズムがネットワークを完全に忠実に抽象化していないことである。
我々は,より忠実なネットワーク表現を生成するために,異なる単純な高レベルモデルを組み合わせるソリューションを提案する。
- 参考スコア(独自算出の注目度): 10.115827125021438
- License:
- Abstract: Mechanistic interpretability aims to reverse engineer neural networks by uncovering which high-level algorithms they implement. Causal abstraction provides a precise notion of when a network implements an algorithm, i.e., a causal model of the network contains low-level features that realize the high-level variables in a causal model of the algorithm. A typical problem in practical settings is that the algorithm is not an entirely faithful abstraction of the network, meaning it only partially captures the true reasoning process of a model. We propose a solution where we combine different simple high-level models to produce a more faithful representation of the network. Through learning this combination, we can model neural networks as being in different computational states depending on the input provided, which we show is more accurate to GPT 2-small fine-tuned on two toy tasks. We observe a trade-off between the strength of an interpretability hypothesis, which we define in terms of the number of inputs explained by the high-level models, and its faithfulness, which we define as the interchange intervention accuracy. Our method allows us to modulate between the two, providing the most accurate combination of models that describe the behavior of a neural network given a faithfulness level.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、実装するハイレベルアルゴリズムを明らかにすることによって、ニューラルネットワークをリバースエンジニアリングすることを目的としている。
因果抽象化は、ネットワークがアルゴリズムを実装するとき、すなわち、アルゴリズムの因果モデルで高レベル変数を実現する低レベル特徴を含むときの正確な概念を提供する。
現実的な設定における典型的な問題は、アルゴリズムがネットワークを完全に忠実に抽象化するわけではないことである。
我々は,より忠実なネットワーク表現を生成するために,異なる単純な高レベルモデルを組み合わせるソリューションを提案する。
この組み合わせを学習することで、ニューラルネットワークを入力に応じて異なる計算状態としてモデル化することができる。
我々は、高レベルモデルで説明される入力数と、相互干渉の精度として定義する忠実度という観点から、解釈可能性仮説の強度のトレードオフを観察する。
提案手法は,ニューラルネットワークの動作を忠実度で記述したモデルの最も正確な組み合わせを提供するため,両者を変調することができる。
関連論文リスト
- Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Residual Multi-Fidelity Neural Network Computing [0.0]
多要素情報を用いたニューラルネットワークサロゲートモデルを構築する際の一般的な問題について考察する。
ReLUニューラルネットワークの誤差複雑度推定により、安価な低忠実度モデルと高価な高忠実度モデルとの相関関係を定式化する。
本稿では,提案フレームワークの強みを示す数値例を4つ提示する。
論文 参考訳(メタデータ) (2023-10-05T14:43:16Z) - Interpretability of an Interaction Network for identifying $H
\rightarrow b\bar{b}$ jets [4.553120911976256]
近年、ディープニューラルネットワークに基づくAIモデルは、これらのアプリケーションの多くで人気が高まっている。
我々は、高揚した$Hto bbarb$ jetを識別するために設計されたインタラクションネットワーク(IN)モデルを調べることで、AIモデルの解釈可能性を検討する。
さらに、INモデル内の隠れレイヤの活動を、ニューラルアクティベーションパターン(NAP)ダイアグラムとして記述する。
論文 参考訳(メタデータ) (2022-11-23T08:38:52Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - Characterizing and overcoming the greedy nature of learning in
multi-modal deep neural networks [62.48782506095565]
深層ニューラルネットワークにおける学習の欲張った性質から、モデルは一つのモダリティにのみ依存する傾向にあり、他のモダリティには不適合であることを示す。
本稿では,学習中のモーダル間の条件付き学習速度のバランスをとるアルゴリズムを提案し,グリージー学習の問題に対処できることを実証する。
論文 参考訳(メタデータ) (2022-02-10T20:11:21Z) - Robust Generalization of Quadratic Neural Networks via Function
Identification [19.87036824512198]
一般化は、テスト分布がトレーニング分布に近いと仮定することが多い。
2次ニューラルネットワークでは、パラメータを特定できないにもかかわらず、モデルで表される関数を識別できることが示される。
論文 参考訳(メタデータ) (2021-09-22T18:02:00Z) - Mitigating Performance Saturation in Neural Marked Point Processes:
Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。
我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-07-07T16:59:14Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。