論文の概要: Attention Needs to Focus: A Unified Perspective on Attention Allocation
- arxiv url: http://arxiv.org/abs/2601.00919v2
- Date: Wed, 07 Jan 2026 18:20:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.008023
- Title: Attention Needs to Focus: A Unified Perspective on Attention Allocation
- Title(参考訳): 注意が必要なこと:注意の配置に関する統一的な視点
- Authors: Zichuan Fu, Wentao Song, Guojing Li, Yejing Wang, Xian Wu, Yimin Deng, Hanyu Yan, Yefeng Zheng, Xiangyu Zhao,
- Abstract要約: Transformer アーキテクチャは現代のLarge Language Models (LLM) の基盤である
標準的な注意機構は、表現的崩壊と注意シンクという、文書化された問題に悩まされている。
どちらも共通のルート(不適切な注意割り当て)にトレース可能である、と論じて、統一された視点を提示します。
- 参考スコア(独自算出の注目度): 37.34801068995858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer architecture, a cornerstone of modern Large Language Models (LLMs), has achieved extraordinary success in sequence modeling, primarily due to its attention mechanism. However, despite its power, the standard attention mechanism is plagued by well-documented issues: representational collapse and attention sink. Although prior work has proposed approaches for these issues, they are often studied in isolation, obscuring their deeper connection. In this paper, we present a unified perspective, arguing that both can be traced to a common root -- improper attention allocation. We identify two failure modes: 1) Attention Overload, where tokens receive comparable high weights, blurring semantic features that lead to representational collapse; 2) Attention Underload, where no token is semantically relevant, yet attention is still forced to distribute, resulting in spurious focus such as attention sink. Building on this insight, we introduce Lazy Attention, a novel mechanism designed for a more focused attention distribution. To mitigate overload, it employs positional discrimination across both heads and dimensions to sharpen token distinctions. To counteract underload, it incorporates Elastic-Softmax, a modified normalization function that relaxes the standard softmax constraint to suppress attention on irrelevant tokens. Experiments on the FineWeb-Edu corpus, evaluated across nine diverse benchmarks, demonstrate that Lazy Attention successfully mitigates attention sink and achieves competitive performance compared to both standard attention and modern architectures, while reaching up to 59.58% attention sparsity.
- Abstract(参考訳): 現代のLarge Language Models(LLM)の基盤であるTransformerアーキテクチャは、主にその注意機構のために、シーケンスモデリングにおいて驚くべき成功を収めている。
しかし、その力にもかかわらず、標準的な注意機構は、表現的崩壊と注意シンクという、よく文書化された問題に悩まされている。
以前の研究はこれらの問題に対するアプローチを提案しているが、それらはしばしば独立して研究され、より深いつながりを欠いている。
本稿では,両者が共通のルート(不適切な注意割当)に辿り着くことができることを論じ,統一的な視点を示す。
私たちは2つの障害モードを特定します。
1) トークンに匹敵する重み付けを受け、表現の崩壊につながる意味的特徴を曖昧にする注意過負荷。
2) 注意の過負荷は、トークンが意味的に関係しないが、それでも注意を分散せざるを得ず、注意の沈下のような急激な焦点となる。
この洞察に基づいて、より焦点を絞った注意分布のために設計された新しいメカニズムであるLazy Attentionを紹介します。
過負荷を軽減するために、頭と次元をまたいだ位置識別を用いてトークンの区別を強化する。
これは修正された正規化関数で、標準ソフトマックス制約を緩和し、無関係なトークンに対する注意を抑える。
FineWeb-Eduコーパスの実験は、9つの異なるベンチマークで評価され、Lazy Attentionが注意シンクを緩和し、標準の注意とモダンなアーキテクチャの両方と比較して競争性能を達成し、59.58%の注意空間に達することを実証している。
関連論文リスト
- Rectified SpaAttn: Revisiting Attention Sparsity for Efficient Video Generation [22.35209793690791]
拡散変換器はビデオ生成を支配するが、注意の二次的な複雑さは相当なレイテンシをもたらす。
注意間隔は、非クリティカルトークンを無視しながらクリティカルトークンに注目することで計算コストを削減します。
既存の手法は、注意配分における系統的バイアスを誘導する。
本稿では,暗黙のフルアテンション参照でアテンションアロケーションを補正するRectified SpaAttnを提案する。
論文 参考訳(メタデータ) (2025-11-25T02:03:54Z) - Scaling Stick-Breaking Attention: An Efficient Implementation and In-depth Study [38.492552119793]
大規模環境下での突破プロセスに基づく別の注意機構について検討する。
従来のソフトマックス方式のアテンション機構をスティック破りのアテンションに置き換えることの意味について検討した。
現在のSoftmax+RoPEアテンションシステムのドロップイン代替として使用すると、スティック破りのアテンションが現在の手法と競合することがわかった。
論文 参考訳(メタデータ) (2024-10-23T15:51:13Z) - When Attention Sink Emerges in Language Models: An Empirical View [39.36282162213973]
言語モデル(LM)は、意味的に重要でない場合でも、最初のトークンに注意を向ける。
この現象は、ストリーミング/ロングコンテキスト生成、KVキャッシュ最適化、推論アクセラレーション、モデル量子化などのアプリケーションで広く採用されている。
我々はまず、小さなモデルであっても様々な入力を持つLMにおいて、注意シンクが普遍的に存在することを実証した。
論文 参考訳(メタデータ) (2024-10-14T17:50:28Z) - Elliptical Attention [1.7597562616011944]
Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。
本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-19T18:38:11Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-05-20T08:48:10Z) - Causal Attention for Vision-Language Tasks [142.82608295995652]
新しい注意機構:Causal Attention (CATT)について紹介する。
CATTは、既存の注目に基づく視覚言語モデルにおける絶え間ない欠点を除去する。
特に,CATTは大規模プレトレーニングにおいて大きな可能性を秘めている。
論文 参考訳(メタデータ) (2021-03-05T06:38:25Z) - Exploring Self-attention for Image Recognition [151.12000247183636]
画像認識における自己注意の2つの形態について考察する。
ひとつは、標準的なドット積の注意を一般化する、ペアワイズな自己注意である。
もう1つはパッチワイドな自己認識であり、畳み込みよりも厳格に強力です。
論文 参考訳(メタデータ) (2020-04-28T16:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。