論文の概要: Investigating Neuron Ablation in Attention Heads: The Case for Peak Activation Centering
- arxiv url: http://arxiv.org/abs/2408.17322v1
- Date: Fri, 30 Aug 2024 14:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 15:08:40.254553
- Title: Investigating Neuron Ablation in Attention Heads: The Case for Peak Activation Centering
- Title(参考訳): 注意頭におけるニューロンのアブレーション : ピーク活性化センターを事例として
- Authors: Nicholas Pochinkov, Ben Pasero, Skylar Shibayama,
- Abstract要約: 本稿では,ニューロンの活性化を観察するための異なるレンズについて述べるとともに,言語モデルと視覚変換器の有効性について検討する。
異なるレギュラーやモデルにおいて,各手法は,他の手法と比較して,モデル性能の低下を最小限に抑えることができることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of transformer-based models is growing rapidly throughout society. With this growth, it is important to understand how they work, and in particular, how the attention mechanisms represent concepts. Though there are many interpretability methods, many look at models through their neuronal activations, which are poorly understood. We describe different lenses through which to view neuron activations, and investigate the effectiveness in language models and vision transformers through various methods of neural ablation: zero ablation, mean ablation, activation resampling, and a novel approach we term 'peak ablation'. Through experimental analysis, we find that in different regimes and models, each method can offer the lowest degradation of model performance compared to other methods, with resampling usually causing the most significant performance deterioration. We make our code available at https://github.com/nickypro/investigating-ablation.
- Abstract(参考訳): トランスフォーマーベースのモデルの使用は、社会全体で急速に増加している。
この成長では、それらがどのように機能するか、特に注意機構がいかに概念を表現するかを理解することが重要である。
多くの解釈可能性法があるが、多くの人はニューロンの活性化を通してモデルを見るが、それは理解されていない。
我々は、ニューロンの活性化を観察する様々なレンズについて記述し、ゼロアブレーション、平均アブレーション、アクティベーションリサンプリング、および「ピークアブレーション」と呼ばれる新しいアプローチにより、言語モデルと視覚トランスフォーマーの有効性について検討する。
実験結果から,各手法はモデル性能の劣化を他の手法と比較して低く抑えることができ,再サンプリングは最も顕著な性能劣化を引き起こすことが判明した。
コードをhttps://github.com/nickypro/investigating-ablation.comで公開しています。
関連論文リスト
- Exploring The Neural Burden In Pruned Models: An Insight Inspired By Neuroscience [11.356550034255296]
プルーニング技術はネットワークのかなりの部分を取り除くために広く使われている。
これらの手法はFLOPのかなりの割合を削減できるが、しばしばモデルの性能を低下させる。
我々はニューラルバーデンというニューラルニューラルネットワークモデルの新しい概念を提案する。
論文 参考訳(メタデータ) (2024-07-23T03:43:21Z) - Deep Latent Variable Modeling of Physiological Signals [0.8702432681310401]
潜時変動モデルを用いた生理モニタリングに関する高次元問題について検討する。
まず、光学的に得られた信号を入力として、心の電気波形を生成するための新しい状態空間モデルを提案する。
次に,確率的グラフィカルモデルの強みと深い敵対学習を組み合わせた脳信号モデリング手法を提案する。
第3に,生理的尺度と行動の合同モデリングのための枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T17:07:33Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Generalization of generative model for neuronal ensemble inference
method [0.0]
本研究では,ニューロンの状態を表す変数の範囲を拡大し,拡張変数に対するモデルの可能性を一般化する。
この2値入力の制限のない一般化により,ソフトクラスタリングが可能となり,非定常神経活動データに適用できる。
論文 参考訳(メタデータ) (2022-11-07T07:58:29Z) - On the Evolution of Neuron Communities in a Deep Learning Architecture [0.7106986689736827]
本稿では,ディープラーニングに基づく分類モデルのニューロン活性化パターンについて検討する。
コミュニティの品質(モジュラリティ)とエントロピーの両方が、ディープラーニングモデルのパフォーマンスと密接に関連していることを示す。
論文 参考訳(メタデータ) (2021-06-08T21:09:55Z) - ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。
Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。
純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文 参考訳(メタデータ) (2021-03-26T02:42:38Z) - Fooling the primate brain with minimal, targeted image manipulation [67.78919304747498]
本稿では、行動に反映される神経活動と知覚の両方の変化をもたらす、最小限の標的画像摂動を生成するための一連の手法を提案する。
我々の研究は、敵対的攻撃、すなわち最小限のターゲットノイズによる画像の操作で同じ目標を共有し、ANNモデルに画像の誤分類を誘導する。
論文 参考訳(メタデータ) (2020-11-11T08:30:54Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z) - A new inference approach for training shallow and deep generalized
linear models of noisy interacting neurons [4.899818550820575]
我々は2段階の推論戦略を開発し、相互作用するニューロンの堅牢な一般化線形モデルを訓練する。
古典的手法と比較して、この方法で訓練されたモデルは性能が向上していることが示される。
この手法は深部畳み込みニューラルネットワークに拡張することができ、ニューロンの発火速度とその相関の予測精度の高いモデルが得られる。
論文 参考訳(メタデータ) (2020-06-11T15:09:53Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。