論文の概要: Attention Sink Forges Native MoE in Attention Layers: Sink-Aware Training to Address Head Collapse
- arxiv url: http://arxiv.org/abs/2602.01203v1
- Date: Sun, 01 Feb 2026 12:45:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.659017
- Title: Attention Sink Forges Native MoE in Attention Layers: Sink-Aware Training to Address Head Collapse
- Title(参考訳): 注意シンクは注意層にネイティブなMoEを埋め込む: 頭部の崩壊に対処するためのシンクアウェアトレーニング
- Authors: Zizhuo Fu, Wenxuan Zeng, Runsheng Wang, Meng Li,
- Abstract要約: 本研究では,バニラ注意とシンク注意の流し込みが自然に注意層内にMixture-of-Experts (MoE) 機構を構築していることを示す。
頭部崩壊を軽減するため,アテンション層用に設計された補助負荷分散損失を有するシンク・アウェア・トレーニングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.042559854770422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often assign disproportionate attention to the first token, a phenomenon known as the attention sink. Several recent approaches aim to address this issue, including Sink Attention in GPT-OSS and Gated Attention in Qwen3-Next. However, a comprehensive analysis of the relationship among these attention mechanisms is lacking. In this work, we provide both theoretical and empirical evidence demonstrating that the sink in Vanilla Attention and Sink Attention naturally construct a Mixture-of-Experts (MoE) mechanism within attention layers. This insight explains the head collapse phenomenon observed in prior work, where only a fixed subset of attention heads contributes to generation. To mitigate head collapse, we propose a sink-aware training algorithm with an auxiliary load balancing loss designed for attention layers. Extensive experiments show that our method achieves effective head load balancing and improves model performance across Vanilla Attention, Sink Attention, and Gated Attention. We hope this study offers a new perspective on attention mechanisms and encourages further exploration of the inherent MoE structure within attention layers.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば注意シンクとして知られる最初のトークンに不均等な注意を割り当てる。
GPT-OSSのSink Attention、Qwen3-NextのGated Attentionなどだ。
しかし、これらの注意機構間の関係の包括的分析は欠如している。
本研究では,バニラ・アテンションとシンク・アテンションのシンクが自然にアテンション層内にMixture-of-Experts (MoE) 機構を構築していることを示す理論的および実証的な証拠を提供する。
この知見は、注目ヘッドの一定サブセットのみが生成に寄与する前処理で観察される頭部崩壊現象を説明する。
頭部崩壊を軽減するため,アテンション層用に設計された補助負荷分散損失を有するシンク・アウェア・トレーニングアルゴリズムを提案する。
本手法は,バニラ注意,シンク注意,ゲーテッド注意にまたがって,効果的な負荷分散を実現し,モデル性能を向上させる。
本研究は、注意機構の新しい視点を提供し、注意層内に存在する固有のMoE構造をさらに探究することを願っている。
関連論文リスト
- Revealing the Attention Floating Mechanism in Masked Diffusion Models [52.74142815156738]
マスク付き拡散モデル(MDMs)は、双方向の注意とデノナイジングプロセスを活用する。
本稿では,MDMにおける注意行動について検討し,注意浮動現象を明らかにした。
論文 参考訳(メタデータ) (2026-01-12T09:10:05Z) - Attention Needs to Focus: A Unified Perspective on Attention Allocation [37.34801068995858]
Transformer アーキテクチャは現代のLarge Language Models (LLM) の基盤である
標準的な注意機構は、表現的崩壊と注意シンクという、文書化された問題に悩まされている。
どちらも共通のルート(不適切な注意割り当て)にトレース可能である、と論じて、統一された視点を提示します。
論文 参考訳(メタデータ) (2026-01-01T08:39:15Z) - Reversed Attention: On The Gradient Descent Of Attention Layers In GPT [55.2480439325792]
我々は、後ろ向きの注意パスの数学を研究し、それが「逆注意」と呼ぶ注意行列を暗黙的に計算することを明らかにする。
実験的な設定では,モデルの重みを変更することなく,前向きの注意パスを直接変更することができる。
LMがバックプロパゲーション中に注意層を構成する方法の理解を深めるだけでなく、Reversed Attention Mapはより解釈可能な後方パスに寄与する。
論文 参考訳(メタデータ) (2024-12-22T13:48:04Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Attention mechanisms for physiological signal deep learning: which
attention should we take? [0.0]
我々は,4つのアテンション機構(例えば,圧縮励起,非局所的,畳み込みブロックアテンションモジュール,マルチヘッド自己アテンション)と3つの畳み込みニューラルネットワーク(CNN)アーキテクチャを実験的に解析した。
生理信号深層学習モデルの性能と収束性に関する複数の組み合わせを評価した。
論文 参考訳(メタデータ) (2022-07-04T07:24:08Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Attention in Attention Network for Image Super-Resolution [18.2279472158217]
静的な注意メカニズムを定量化し、視覚化し、すべての注意モジュールが等しく有益ではないことを示します。
高精度な画像SRのために注目ネットワーク(A$2$N)への注目を提案します。
我々のモデルは最先端の軽量ネットワークと比較して優れたトレードオフ性能を実現することができる。
論文 参考訳(メタデータ) (2021-04-19T17:59:06Z) - Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference [68.12511526813991]
ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-09-20T06:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。