論文の概要: Sink vs. diagonal patterns as mechanisms for attention switch and oversmoothing prevention
- arxiv url: http://arxiv.org/abs/2605.08453v1
- Date: Fri, 08 May 2026 20:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.657169
- Title: Sink vs. diagonal patterns as mechanisms for attention switch and oversmoothing prevention
- Title(参考訳): 注意スイッチと過密防止のメカニズムとしてのシンク対対斜めパターン
- Authors: Peter Súkeník, Cristina López Amado, Christoph H. Lampert, Marco Mondelli,
- Abstract要約: 本研究では,アテンションスイッチおよびアンチオーバーオブスムチング機構として,シンクと斜めパターンが果たす役割について検討した。
シンクとハードアテンションスイッチの等価性を証明し、アテンションの出力は0。
我々はトークンの自己通信を許すことにより、ハードアテンションスイッチを緩和し、事前訓練されたトランスにおいてシンクが好まれる理由を示す。
- 参考スコア(独自算出の注目度): 41.81311825096166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the role of sinks and diagonal patterns as attention switch and anti-oversmoothing mechanisms. We analyze geometric conditions under which sinks can be represented, showing a necessary alignment between the embedding of the sink and all other embeddings. Next, we refine the current understanding of the role of sinks in oversmoothing prevention: we specify the conditions under which dense attention provably smooths more than sparse attention, and empirically verify that such conditions are often satisfied in practice. We further prove an equivalence between sinks and hard attention switch, in which the output of the attention is identically 0. Finally, we relax the hard attention switch by allowing token self-communication: we provide a quantitative comparison of the costs of representing sinks vs.\ diagonal patterns, showing why sinks are favored in pretrained transformers. The introduction and analysis of diagonal patterns and the generalization of the attention switch close the gap between what oversmoothing prevention requires and what sinks provide, while also establishing when and why attention layers act like MLPs if token communication is not necessary.
- Abstract(参考訳): 本稿では,アテンションスイッチとアンチオーバーオブスムチング機構として,シンクと斜めパターンが果たす役割について検討する。
シンクを表現できる幾何学的条件を解析し、シンクの埋め込みと他のすべての埋め込みとの整合性を示す。
次に,過密防止における流し込みの役割に関する現在の理解を洗練し,密集した注意がスパース・アテンション以上の円滑な条件を規定し,そのような条件が実際に満たされることを実証的に検証する。
さらに、シンクとハードアテンションスイッチの等価性を証明し、アテンションの出力が同じ0。
最後に、トークンの自己通信を可能にすることで、ハードアテンションスイッチを緩和し、シンクとシンクのコストを定量的に比較する。
対角パターンで、事前訓練された変圧器で流しが好まれる理由を示している。
斜めパターンの導入と解析、および注意スイッチの一般化により、過密防止と流し物との間のギャップを埋めると同時に、トークン通信が不要な場合、注意層がMPPのように振る舞う時期と理由を確立する。
関連論文リスト
- The Structural Origin of Attention Sink: Variance Discrepancy, Super Neurons, and Dimension Disparity [22.040532283910522]
この研究は、この現象のテクトメカニスティックな説明を提供する。
我々はそのルーツを自己注意に固有の価値集約プロセスに遡る。
概念実証として,事前学習時の値アグリゲーション出力を安定化するアーキテクチャ変更であるtextithead-wise RMSNormを提案する。
論文 参考訳(メタデータ) (2026-05-07T17:28:55Z) - How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective [67.08306259095778]
モデルがゼロ位置のトークンを認識できるように簡単なメカニズムを同定し、2つの変圧器ブロック内で注意シンクを誘導する。
スクラッチからトレーニングされた30B A3B MoEモデルからのトレーニングトレースを分析することで、このメカニズムはトレーニングの初期段階に現れ、最初の2層に集中するようになる。
論文 参考訳(メタデータ) (2026-02-04T11:10:34Z) - Attention Needs to Focus: A Unified Perspective on Attention Allocation [37.34801068995858]
Transformer アーキテクチャは現代のLarge Language Models (LLM) の基盤である
標準的な注意機構は、表現的崩壊と注意シンクという、文書化された問題に悩まされている。
どちらも共通のルート(不適切な注意割り当て)にトレース可能である、と論じて、統一された視点を提示します。
論文 参考訳(メタデータ) (2026-01-01T08:39:15Z) - Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Attention Sinks: A 'Catch, Tag, Release' Mechanism for Embeddings [16.950215926321558]
大型言語モデル(LLM)は、注意シンクと呼ばれるいくつかの特定のトークンに注意を集中することが多い。
一般的な例として、最初のトークン、プロンプト非依存のシンク、句読点がある。
その普遍性にもかかわらず、機能、意味的役割、注意の起源はいまだに理解されていない。
論文 参考訳(メタデータ) (2025-02-02T21:15:07Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Is Sparse Attention more Interpretable? [52.85910570651047]
我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。
入力とインデックス付き中間表現の間には弱い関係しか存在しません。
この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
論文 参考訳(メタデータ) (2021-06-02T11:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。