Fugu-MT 論文翻訳(概要): The Local Interaction Basis: Identifying Computationally-Relevant and Sparsely Interacting Features in Neural Networks

論文の概要: The Local Interaction Basis: Identifying Computationally-Relevant and Sparsely Interacting Features in Neural Networks

arxiv url: http://arxiv.org/abs/2405.10928v1
Date: Fri, 17 May 2024 17:27:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-20 15:24:17.345425
Title: The Local Interaction Basis: Identifying Computationally-Relevant and Sparsely Interacting Features in Neural Networks
Title（参考訳）: 局所相互作用ベイズ:ニューラルネットワークにおける計算関連・疎干渉特徴の同定
Authors: Lucius Bushnaq, Stefan Heimersheim Nicholas Goldowsky-Dill, Dan Braun, Jake Mendel, Kaarel Hänni, Avery Griffin, Jörn Stöhler, Magdalena Wache, Marius Hobbhahn,
Abstract要約: Local Interaction Basisは、無関係なアクティベーションとインタラクションを取り除くことによって、計算的特徴を特定することを目的としている。モジュラ付加モデルとCIFAR-10モデルにおけるLIBの有効性を評価する。我々は、LIBはニューラルネットワークを解析するための有望な理論駆動型アプローチであるが、現在の形式では、大きな言語モデルには適用できないと結論付けた。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mechanistic interpretability aims to understand the behavior of neural networks by reverse-engineering their internal computations. However, current methods struggle to find clear interpretations of neural network activations because a decomposition of activations into computational features is missing. Individual neurons or model components do not cleanly correspond to distinct features or functions. We present a novel interpretability method that aims to overcome this limitation by transforming the activations of the network into a new basis - the Local Interaction Basis (LIB). LIB aims to identify computational features by removing irrelevant activations and interactions. Our method drops irrelevant activation directions and aligns the basis with the singular vectors of the Jacobian matrix between adjacent layers. It also scales features based on their importance for downstream computation, producing an interaction graph that shows all computationally-relevant features and interactions in a model. We evaluate the effectiveness of LIB on modular addition and CIFAR-10 models, finding that it identifies more computationally-relevant features that interact more sparsely, compared to principal component analysis. However, LIB does not yield substantial improvements in interpretability or interaction sparsity when applied to language models. We conclude that LIB is a promising theory-driven approach for analyzing neural networks, but in its current form is not applicable to large language models.
Abstract（参考訳）: 機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークの内部計算をリバースエンジニアリングすることで、その振る舞いを理解することを目的としている。しかし、現在の手法では、演算機能へのアクティベーションの分解が欠如しているため、ニューラルネットワークのアクティベーションの明確な解釈を見つけるのに苦労している。個々のニューロンやモデルコンポーネントは、明確に異なる特徴や機能に対応しない。本稿では,ネットワークの活性化を新たな基盤であるLIB(Local Interaction Basis)に変換することによって,この制限を克服することを目的とした,新たな解釈可能性手法を提案する。 LIBは、無関係なアクティベーションと相互作用を取り除き、計算的特徴を識別することを目的としている。本手法は, アクティベーションの非関係な方向を減少させ, 隣り合う層間のヤコビ行列の特異ベクトルと基底を一致させる。また、下流計算の重要性に基づいて機能をスケールし、モデル内のすべての計算関連特徴と相互作用を示す相互作用グラフを生成する。モジュール追加およびCIFAR-10モデルに対するLIBの有効性を評価し,主成分分析と比較して,より計算的に関連性の高い特徴を同定した。しかし、LIBは言語モデルに適用した場合、解釈可能性や相互作用の空間性を大幅に改善するものではない。我々は、LIBはニューラルネットワークを解析するための有望な理論駆動型アプローチであるが、現在の形式では、大きな言語モデルには適用できないと結論付けた。

関連論文リスト

Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization [17.101290138120564]
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。 Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
論文参考訳（メタデータ） (2025-06-12T17:33:29Z)
An XAI-based Analysis of Shortcut Learning in Neural Networks [2.592470112714595]
我々は,ニューロンの刺激的特徴への依存性を定量化するために,ニューロンの刺激的スコアを導入する。以上の結果から, 突発的特徴は部分的には絡み合っているが, モデルアーキテクチャ間での絡み合わ度は異なることがわかった。我々の研究結果は、突発的な相関を緩和し、AIモデルを実際により安全に使えるようにするための新しい手法の開発の基礎を築いた。
論文参考訳（メタデータ） (2025-04-22T07:40:45Z)
Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文参考訳（メタデータ） (2025-02-03T20:30:46Z)
Efficient and Interpretable Neural Networks Using Complex Lehmer Transform [11.095723123836965]
重み付きレーマー変換と呼ばれる新しい活性化関数を持つ効率的かつ解釈可能なニューラルネットワークを提案する。実数値と複素数値の両方のリーマー活性化単位の数学的性質を解析する。実験により,提案したニューラルネットワークがベンチマークデータセット上での競合精度を実現することを示す。
論文参考訳（メタデータ） (2025-01-25T14:08:30Z)
Learning local discrete features in explainable-by-design convolutional neural networks [0.0]
本稿では,側方抑制機構に基づくCNN(Design-by-Design Convolutional Neural Network)を提案する。このモデルは、残留または高密度のスキップ接続を持つ高精度CNNである予測器で構成されている。観測を収集し,直接確率を計算することにより,隣接するレベルのモチーフ間の因果関係を説明することができる。
論文参考訳（メタデータ） (2024-10-31T18:39:41Z)
Semantic Loss Functions for Neuro-Symbolic Structured Prediction [74.18322585177832]
このような構造に関する知識を象徴的に定義した意味的損失をトレーニングに注入する。記号の配置に非依存であり、それによって表現される意味論にのみ依存する。識別型ニューラルモデルと生成型ニューラルモデルの両方と組み合わせることができる。
論文参考訳（メタデータ） (2024-05-12T22:18:25Z)
Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。 LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文参考訳（メタデータ） (2023-08-23T10:48:28Z)
Seeking Interpretability and Explainability in Binary Activated Neural Networks [2.828173677501078]
本稿では、回帰タスクの文脈において、解釈可能かつ説明可能な予測子としてバイナリ活性化ニューラルネットワークを用いることについて検討する。本稿では,特徴量,隠れニューロン,さらには重みの相対的重要性を定量化するために,SHAP値の効率的な計算法を提案する。
論文参考訳（メタデータ） (2022-09-07T20:11:17Z)
Modeling Implicit Bias with Fuzzy Cognitive Maps [0.0]
本稿では、構造化データセットにおける暗黙バイアスを定量化するファジィ認知マップモデルを提案する。本稿では,ニューロンの飽和を防止する正規化様伝達関数を備えた新しい推論機構を提案する。
論文参考訳（メタデータ） (2021-12-23T17:04:12Z)
PAC-Bayesian Learning of Aggregated Binary Activated Neural Networks with Probabilities over Representations [2.047424180164312]
本研究では,確率論的ニューラルネットワークの予測器としての期待値について検討し,実数値重みによる正規分布を持つ二元活性化ニューラルネットワークの集約に着目した。我々は、動的プログラミングアプローチのおかげで、深いが狭いニューラルネットワークに対して、正確な計算が引き続き実行可能であることを示す。
論文参考訳（メタデータ） (2021-10-28T14:11:07Z)
Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文参考訳（メタデータ） (2021-06-17T17:26:31Z)
Sparsely ensembled convolutional neural network classifiers via reinforcement learning [0.0]
畳み込みニューラルネットワーク(CNN)は,最小動作原理にインスパイアされた目的関数で学習する。我々はエージェントに事前学習した分類器の集合を通してイメージを知覚するように教え、その結果、動的に構成されたシステムに計算グラフを展開させたい。実験の結果,エージェントが計算の動的(および文脈に依存した)構造を利用すると,従来のアンサンブル学習よりも優れることがわかった。
論文参考訳（メタデータ） (2021-02-07T21:26:57Z)
Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文参考訳（メタデータ） (2020-08-19T04:53:31Z)
Provably Efficient Neural Estimation of Structural Equation Model: An Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文参考訳（メタデータ） (2020-07-02T17:55:47Z)
A Trainable Optimal Transport Embedding for Feature Aggregation and its Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文参考訳（メタデータ） (2020-06-22T08:35:58Z)
Measuring Model Complexity of Neural Networks with Curve Activation Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文参考訳（メタデータ） (2020-06-16T07:38:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。