論文の概要: Intrinsic and Extrinsic Organized Attention: Softmax Invariance and Network Sparsity
- arxiv url: http://arxiv.org/abs/2506.15541v1
- Date: Wed, 18 Jun 2025 15:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.707604
- Title: Intrinsic and Extrinsic Organized Attention: Softmax Invariance and Network Sparsity
- Title(参考訳): 内在的・外因的組織的注意:ソフトマックスの不変性とネットワークの分散性
- Authors: Oluwadamilola Fasina, Ruben V. C. Pohle, Pei-Chun Su, Ronald R. Coifman,
- Abstract要約: 変圧器における自己注意機構の内因性(注意頭)と外因性(注意頭)構造について検討した。
我々は、ネットワーク構造を調べるために、テンソルの階層的な構成に既存の方法論を用いる。
- 参考スコア(独自算出の注目度): 1.837729564584369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We examine the intrinsic (within the attention head) and extrinsic (amongst the attention heads) structure of the self-attention mechanism in transformers. Theoretical evidence for invariance of the self-attention mechanism to softmax activation is obtained by appealing to paradifferential calculus, (and is supported by computational examples), which relies on the intrinsic organization of the attention heads. Furthermore, we use an existing methodology for hierarchical organization of tensors to examine network structure by constructing hierarchal partition trees with respect to the query, key, and head axes of network 3-tensors. Such an organization is consequential since it allows one to profitably execute common signal processing tasks on a geometry where the organized network 3-tensors exhibit regularity. We exemplify this qualitatively, by visualizing the hierarchical organization of the tree comprised of attention heads and the diffusion map embeddings, and quantitatively by investigating network sparsity with the expansion coefficients of individual attention heads and the entire network with respect to the bi and tri-haar bases (respectively) on the space of queries, keys, and heads of the network. To showcase the utility of our theoretical and methodological findings, we provide computational examples using vision and language transformers. The ramifications of these findings are two-fold: (1) a subsequent step in interpretability analysis is theoretically admitted, and can be exploited empirically for downstream interpretability tasks (2) one can use the network 3-tensor organization for empirical network applications such as model pruning (by virtue of network sparsity) and network architecture comparison.
- Abstract(参考訳): 変圧器における自己注意機構の内因性(注意頭)と外因性(注意頭)構造について検討した。
自己アテンション機構とソフトマックス活性化の不変性の理論的証拠は、(そして計算例によって支持される)偏微分計算に訴えることによって得られる。
さらに,従来のテンソルの階層化手法を用いて,ネットワーク3 テンソルのクエリ,キー,ヘッド軸に関する階層分割木を構築することにより,ネットワーク構造を調べる。
このような組織は、組織化された3つのテンソルが規則性を示す幾何学において、共通信号処理タスクを利益よく実行できるようにするため、連続的である。
我々は、注意頭と拡散マップの埋め込みからなる木の階層的構造を可視化し、各注意頭とネットワーク全体の拡張係数によるネットワーク空間を、クエリー、キー、ヘッダーの空間上のbiおよびtri-haarベース(参照)に対して定量的に調べて、これを定性的に例証する。
理論的・方法論的な知見の有効性を示すために,視覚と言語変換器を用いた計算例を提案する。
1) 解釈可能性解析の次のステップが理論的に認められ、下流の解釈可能性タスクに経験的に利用でき、(2) ネットワーク3テンソル組織をモデルプルーニングやネットワークアーキテクチャ比較などの経験的ネットワークアプリケーションに利用することができる。
関連論文リスト
- Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural Networks [44.31729147722701]
3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。
この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
論文 参考訳(メタデータ) (2023-05-11T17:19:30Z) - Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。
これは機械学習の幅広い領域にまたがる重要な構造条件の例である。
しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文 参考訳(メタデータ) (2022-06-13T12:03:32Z) - Functional Network: A Novel Framework for Interpretability of Deep
Neural Networks [2.641939670320645]
本稿では,深層ニューラルネットワーク,すなわち関数型ネットワークの解釈可能性に関する新しい枠組みを提案する。
本実験では, バッチ正規化とドロップアウトという正則化手法のメカニズムを明らかにした。
論文 参考訳(メタデータ) (2022-05-24T01:17:36Z) - Learning Structures for Deep Neural Networks [99.8331363309895]
我々は,情報理論に根ざし,計算神経科学に発達した効率的な符号化原理を採用することを提案する。
スパース符号化は出力信号のエントロピーを効果的に最大化できることを示す。
公開画像分類データセットを用いた実験により,提案アルゴリズムでスクラッチから学習した構造を用いて,最も優れた専門家設計構造に匹敵する分類精度が得られることを示した。
論文 参考訳(メタデータ) (2021-05-27T12:27:24Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Neural networks adapting to datasets: learning network size and topology [77.34726150561087]
ニューラルネットワークは、勾配に基づくトレーニングの過程で、そのサイズとトポロジの両方を学習できるフレキシブルなセットアップを導入します。
結果として得られるネットワークは、特定の学習タスクとデータセットに合わせたグラフの構造を持つ。
論文 参考訳(メタデータ) (2020-06-22T12:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。