論文の概要: The Local Interaction Basis: Identifying Computationally-Relevant and Sparsely Interacting Features in Neural Networks
- arxiv url: http://arxiv.org/abs/2405.10928v1
- Date: Fri, 17 May 2024 17:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 15:24:17.345425
- Title: The Local Interaction Basis: Identifying Computationally-Relevant and Sparsely Interacting Features in Neural Networks
- Title(参考訳): 局所相互作用ベイズ:ニューラルネットワークにおける計算関連・疎干渉特徴の同定
- Authors: Lucius Bushnaq, Stefan Heimersheim Nicholas Goldowsky-Dill, Dan Braun, Jake Mendel, Kaarel Hänni, Avery Griffin, Jörn Stöhler, Magdalena Wache, Marius Hobbhahn,
- Abstract要約: Local Interaction Basisは、無関係なアクティベーションとインタラクションを取り除くことによって、計算的特徴を特定することを目的としている。
モジュラ付加モデルとCIFAR-10モデルにおけるLIBの有効性を評価する。
我々は、LIBはニューラルネットワークを解析するための有望な理論駆動型アプローチであるが、現在の形式では、大きな言語モデルには適用できないと結論付けた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mechanistic interpretability aims to understand the behavior of neural networks by reverse-engineering their internal computations. However, current methods struggle to find clear interpretations of neural network activations because a decomposition of activations into computational features is missing. Individual neurons or model components do not cleanly correspond to distinct features or functions. We present a novel interpretability method that aims to overcome this limitation by transforming the activations of the network into a new basis - the Local Interaction Basis (LIB). LIB aims to identify computational features by removing irrelevant activations and interactions. Our method drops irrelevant activation directions and aligns the basis with the singular vectors of the Jacobian matrix between adjacent layers. It also scales features based on their importance for downstream computation, producing an interaction graph that shows all computationally-relevant features and interactions in a model. We evaluate the effectiveness of LIB on modular addition and CIFAR-10 models, finding that it identifies more computationally-relevant features that interact more sparsely, compared to principal component analysis. However, LIB does not yield substantial improvements in interpretability or interaction sparsity when applied to language models. We conclude that LIB is a promising theory-driven approach for analyzing neural networks, but in its current form is not applicable to large language models.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークの内部計算をリバースエンジニアリングすることで、その振る舞いを理解することを目的としている。
しかし、現在の手法では、演算機能へのアクティベーションの分解が欠如しているため、ニューラルネットワークのアクティベーションの明確な解釈を見つけるのに苦労している。
個々のニューロンやモデルコンポーネントは、明確に異なる特徴や機能に対応しない。
本稿では,ネットワークの活性化を新たな基盤であるLIB(Local Interaction Basis)に変換することによって,この制限を克服することを目的とした,新たな解釈可能性手法を提案する。
LIBは、無関係なアクティベーションと相互作用を取り除き、計算的特徴を識別することを目的としている。
本手法は, アクティベーションの非関係な方向を減少させ, 隣り合う層間のヤコビ行列の特異ベクトルと基底を一致させる。
また、下流計算の重要性に基づいて機能をスケールし、モデル内のすべての計算関連特徴と相互作用を示す相互作用グラフを生成する。
モジュール追加およびCIFAR-10モデルに対するLIBの有効性を評価し,主成分分析と比較して,より計算的に関連性の高い特徴を同定した。
しかし、LIBは言語モデルに適用した場合、解釈可能性や相互作用の空間性を大幅に改善するものではない。
我々は、LIBはニューラルネットワークを解析するための有望な理論駆動型アプローチであるが、現在の形式では、大きな言語モデルには適用できないと結論付けた。
関連論文リスト
- Learning local discrete features in explainable-by-design convolutional neural networks [0.0]
本稿では,側方抑制機構に基づくCNN(Design-by-Design Convolutional Neural Network)を提案する。
このモデルは、残留または高密度のスキップ接続を持つ高精度CNNである予測器で構成されている。
観測を収集し,直接確率を計算することにより,隣接するレベルのモチーフ間の因果関係を説明することができる。
論文 参考訳(メタデータ) (2024-10-31T18:39:41Z) - Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。
記号の配置に非依存であり、それによって表現される意味論にのみ依存する。
識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文 参考訳(メタデータ) (2024-05-12T22:18:25Z) - Seeking Interpretability and Explainability in Binary Activated Neural Networks [2.828173677501078]
本稿では、回帰タスクの文脈において、解釈可能かつ説明可能な予測子としてバイナリ活性化ニューラルネットワークを用いることについて検討する。
本稿では,特徴量,隠れニューロン,さらには重みの相対的重要性を定量化するために,SHAP値の効率的な計算法を提案する。
論文 参考訳(メタデータ) (2022-09-07T20:11:17Z) - Modeling Implicit Bias with Fuzzy Cognitive Maps [0.0]
本稿では、構造化データセットにおける暗黙バイアスを定量化するファジィ認知マップモデルを提案する。
本稿では,ニューロンの飽和を防止する正規化様伝達関数を備えた新しい推論機構を提案する。
論文 参考訳(メタデータ) (2021-12-23T17:04:12Z) - PAC-Bayesian Learning of Aggregated Binary Activated Neural Networks
with Probabilities over Representations [2.047424180164312]
本研究では,確率論的ニューラルネットワークの予測器としての期待値について検討し,実数値重みによる正規分布を持つ二元活性化ニューラルネットワークの集約に着目した。
我々は、動的プログラミングアプローチのおかげで、深いが狭いニューラルネットワークに対して、正確な計算が引き続き実行可能であることを示す。
論文 参考訳(メタデータ) (2021-10-28T14:11:07Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Sparsely ensembled convolutional neural network classifiers via
reinforcement learning [0.0]
畳み込みニューラルネットワーク(CNN)は,最小動作原理にインスパイアされた目的関数で学習する。
我々はエージェントに事前学習した分類器の集合を通してイメージを知覚するように教え、その結果、動的に構成されたシステムに計算グラフを展開させたい。
実験の結果,エージェントが計算の動的(および文脈に依存した)構造を利用すると,従来のアンサンブル学習よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-02-07T21:26:57Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。