論文の概要: Spectral Filters, Dark Signals, and Attention Sinks
- arxiv url: http://arxiv.org/abs/2402.09221v1
- Date: Wed, 14 Feb 2024 15:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 15:09:28.931354
- Title: Spectral Filters, Dark Signals, and Attention Sinks
- Title(参考訳): スペクトルフィルタ,暗信号および注意シンク
- Authors: Nicola Cancedda
- Abstract要約: 我々は、スペクトルの尾端で交換された信号が、注意沈降の原因であると主張している。
埋込スペクトルの粒径を抑えつつ,事前学習したモデルの損失を低く抑えることができることがわかった。
- 参考スコア(独自算出の注目度): 3.0700248625733906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Projecting intermediate representations onto the vocabulary is an
increasingly popular interpretation tool for transformer-based LLMs, also known
as the logit lens. We propose a quantitative extension to this approach and
define spectral filters on intermediate representations based on partitioning
the singular vectors of the vocabulary embedding and unembedding matrices into
bands. We find that the signals exchanged in the tail end of the spectrum are
responsible for attention sinking (Xiao et al. 2023), of which we provide an
explanation. We find that the loss of pretrained models can be kept low despite
suppressing sizable parts of the embedding spectrum in a layer-dependent way,
as long as attention sinking is preserved. Finally, we discover that the
representation of tokens that draw attention from many tokens have large
projections on the tail end of the spectrum.
- Abstract(参考訳): 中間表現を語彙に投影することは、ロージットレンズとしても知られるトランスフォーマーベースのLSMの解釈ツールとして、ますます人気が高まっている。
本稿では,この手法を定量的に拡張し,語彙の特異ベクトルを分割し,行列をバンドに非埋め込みすることで,中間表現のスペクトルフィルタを定義する。
スペクトルの尾端で交換された信号が注意の沈下(xiao et al. 2023)の原因であることが明らかとなった。
注意沈降が維持される限り, 埋込スペクトルの粒径を層依存性に抑えながら, 事前学習モデルの損失を低く抑えることができることがわかった。
最後に、多くのトークンから注意を引くトークンの表現がスペクトルの尾端に大きな投影を持つことを発見した。
関連論文リスト
- Deep Spectral Methods for Unsupervised Ultrasound Image Interpretation [53.37499744840018]
本稿では, 超音波を応用した非教師型深層学習手法を提案する。
我々は、スペクトルグラフ理論と深層学習法を組み合わせた教師なしディープスペクトル法から重要な概念を統合する。
スペクトルクラスタリングの自己教師型トランスフォーマー機能を利用して、超音波特有のメトリクスと形状と位置の先行値に基づいて意味のあるセグメントを生成し、データセット間のセマンティック一貫性を確保する。
論文 参考訳(メタデータ) (2024-08-04T14:30:14Z) - HoloNets: Spectral Convolutions do extend to Directed Graphs [59.851175771106625]
従来の知恵は、スペクトル畳み込みネットワークは無向グラフ上にしか展開できないと規定している。
ここでは、このグラフフーリエ変換への伝統的な依存が超フルであることを示す。
本稿では,新たに開発されたフィルタの周波数応答解釈を行い,フィルタ表現に使用するベースの影響を調査し,ネットワークを基盤とする特性演算子との相互作用について議論する。
論文 参考訳(メタデータ) (2023-10-03T17:42:09Z) - Hodge-Aware Contrastive Learning [101.56637264703058]
単純コンプレックスは、マルチウェイ依存によるデータのモデリングに有効である。
我々は、単純なデータを処理するための対照的な自己教師付き学習手法を開発した。
論文 参考訳(メタデータ) (2023-09-14T00:40:07Z) - Robust Audio Anti-Spoofing with Fusion-Reconstruction Learning on
Multi-Order Spectrograms [19.514932118278523]
本稿では,S2pecNetというスペクトル融合再構成戦略を用いた新しい深層学習手法を提案する。
融合表現から入力スペクトログラムへの再構成により、潜在的融合情報損失がさらに低減される。
提案手法は,広く使用されているデータセット上でのEERの0.77%で最先端の性能を達成した。
論文 参考訳(メタデータ) (2023-08-18T04:51:15Z) - Spectral Feature Augmentation for Graph Contrastive Learning and Beyond [64.78221638149276]
グラフ(および画像)におけるコントラスト学習のための新しいスペクトル特徴論法を提案する。
各データビューに対して,特徴写像毎の低ランク近似を推定し,その近似を地図から抽出して補数を求める。
これは、2つの価値ある副産物(単に1つまたは2つのイテレーション)を楽しむ非標準パワーレジームである、ここで提案された不完全パワーイテレーションによって達成される。
グラフ/画像データセットの実験では、スペクトルフィーチャの増大がベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-02T08:48:11Z) - Removing grid structure in angle-resolved photoemission spectra via deep
learning method [0.0]
ARPES実験では、ワイヤメッシュがCCDの前に置かれ、格子状の光電子を遮断するが、迅速な測定モード中にスペクトルの格子状構造を引き起こす可能性がある。
本稿では,この問題を効果的に克服するためのディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T12:24:37Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - Robust, Nonparametric, Efficient Decomposition of Spectral Peaks under
Distortion and Interference [0.0]
本稿では, 高速フーリエ変換を用いて, 周波数スペクトルのスペクトルピークの分解法を提案する。
スペクトルのピークを擬対称関数としてモデル化する。そこでは、距離が大きくなると中心周波数の周りの非増加的な振る舞いが制約となる。
我々のアプローチは、観測システムによって引き起こされる可能性のあるスペクトルの任意の歪み、干渉、ノイズに対してより堅牢である。
論文 参考訳(メタデータ) (2022-04-18T17:08:37Z) - Reflected entropy in random tensor networks [0.0]
ホログラフィック理論では、反射エントロピーはエンタングルメント・ウェッジ断面の面積と双対であることが示されている。
ページ位相遷移における反射エントロピーの不連続性を円滑にする重要な非摂動効果を解析する。
これらすべての効果を和らげることで、数値的な研究とよく一致する反射交絡スペクトルを解析的に得る。
論文 参考訳(メタデータ) (2021-12-16T18:59:00Z) - Graph Structural Attack by Spectral Distance [35.998704625736394]
グラフ畳み込みネットワーク(GCN)は、グラフ学習タスクにおける優れたパフォーマンスのために、関心の高まりを助長している。
本稿では,フーリエ領域におけるグラフスペクトルフィルタの破壊に有効なグラフ構造攻撃について検討する。
論文 参考訳(メタデータ) (2021-11-01T04:02:34Z) - SpectralFormer: Rethinking Hyperspectral Image Classification with
Transformers [91.09957836250209]
ハイパースペクトル(HS)画像は、ほぼ連続したスペクトル情報によって特徴づけられる。
CNNは、HS画像分類において強力な特徴抽出器であることが証明されている。
我々は、HS画像分類のためのulSpectralFormerと呼ばれる新しいバックボーンネットワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T02:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。