論文の概要: Knocking-Heads Attention
- arxiv url: http://arxiv.org/abs/2510.23052v1
- Date: Mon, 27 Oct 2025 06:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.476401
- Title: Knocking-Heads Attention
- Title(参考訳): Knocking-Heads の注意
- Authors: Zhanchao Zhou, Xiaodong Chen, Haoxing Chen, Zhenzhong Lan, Jianguo Li,
- Abstract要約: マルチヘッドアテンション (MHA) は現代の大規模言語モデルの基盤となっている。
ヘッド数の増加は、本質的に個々のヘッド容量を弱める。
本稿では,注目ヘッド同士の「ノック」を可能にするノックヘッドアテンション(KHA)を提案する。
- 参考スコア(独自算出の注目度): 36.56180929159062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-head attention (MHA) has become the cornerstone of modern large language models, enhancing representational capacity through parallel attention heads. However, increasing the number of heads inherently weakens individual head capacity, and existing attention mechanisms - whether standard MHA or its variants like grouped-query attention (GQA) and grouped-tied attention (GTA) - simply concatenate outputs from isolated heads without strong interaction. To address this limitation, we propose knocking-heads attention (KHA), which enables attention heads to "knock" on each other - facilitating cross-head feature-level interactions before the scaled dot-product attention. This is achieved by applying a shared, diagonally-initialized projection matrix across all heads. The diagonal initialization preserves head-specific specialization at the start of training while allowing the model to progressively learn integrated cross-head representations. KHA adds only minimal parameters and FLOPs and can be seamlessly integrated into MHA, GQA, GTA, and other attention variants. We validate KHA by training a 6.1B parameter MoE model (1.01B activated) on 1T high-quality tokens. Compared to baseline attention mechanisms, KHA brings superior and more stable training dynamics, achieving better performance across downstream tasks.
- Abstract(参考訳): マルチヘッドアテンション(MHA)は現代の大規模言語モデルの基盤となり、並列アテンションヘッドによる表現能力を高めている。
しかし、ヘッド数の増加は個々のヘッド容量を本質的に弱め、既存のアテンション機構 - 標準のMHAやグループクエリアテンション(GQA)やグループクエリアテンション(GTA)のような変種 - は、強い相互作用なしに孤立したヘッドからのアウトプットを単純に結合させる。
この制限に対処するため,我々は,注目ヘッド同士の「ノック」を可能にするノック・ヘッドズ・アテンション(KHA)を提案する。
これは、すべてのヘッドに共有かつ対角的に初期化されたプロジェクション行列を適用することで達成される。
対角初期化は、訓練開始時の頭部特異的特殊化を保ちながら、モデルを段階的に統合された頭型表現を学習することを可能にする。
KHAは最小限のパラメータとFLOPのみを追加し、MHA、GQA、GTA、その他の注意要素にシームレスに統合することができる。
我々は、1Tの高品質トークン上で6.1BパラメータMoEモデル(1.01B活性化)をトレーニングすることでKHAを検証する。
ベースラインのアテンションメカニズムと比較して、KHAはより優れた、より安定したトレーニングダイナミクスをもたらし、下流のタスク間でより良いパフォーマンスを達成する。
関連論文リスト
- SAS: Simulated Attention Score [75.1409882298863]
我々は,多数の注目ヘッドと1頭あたりの隠れ特徴次元をシミュレートしながら,コンパクトなモデルサイズを維持するSAS(Simulated Attention Score)を導入する。
各種データセットとタスクに関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-07-10T12:16:16Z) - Identifying and Evaluating Inactive Heads in Pretrained LLMs [74.93559410792646]
本研究では,頭部の不活性度を計測する13のスコア関数の分類法を提案する。
平均して12%以上の注意頭は活動せず、特定の文脈で改善することができる。
スコア分布を測定することで、注意行動に対する洞察が得られることを示す。
論文 参考訳(メタデータ) (2025-04-04T19:28:23Z) - Align Attention Heads Before Merging Them: An Effective Way for Converting MHA to GQA [8.305827430948654]
KVヘッドの圧縮比によらず,MHAをGQAに変換するコスト効率の良い方法を提案する。
冗長パラメータをプループするために$mathitL$正規化を使用します。
実験の結果,LLaMA2-7Bモデルでは87.5%のKVヘッドを圧縮し,75%のKVヘッドをせん断型LLaMA-1.3Bで圧縮し,性能劣化を許容できることがわかった。
論文 参考訳(メタデータ) (2024-12-30T03:05:45Z) - MoH: Multi-Head Attention as Mixture-of-Head Attention [63.67734699877724]
我々は、トランスフォーマーモデルのコアであるマルチヘッドアテンション機構をアップグレードし、以前の精度を維持したり、超えたりしながら効率を向上させる。
そこで我々は,Mixture-of-Head attention (MoH)を提案する。
まず、MoHは各トークンが適切なアテンションヘッドを選択することを可能にし、精度を損なうことなく推論効率を向上させる。
論文 参考訳(メタデータ) (2024-10-15T17:59:44Z) - DHA: Learning Decoupled-Head Attention from Transformer Checkpoints via Adaptive Heads Fusion [29.531814426276885]
大規模言語モデル(LLM)のためのDHA(Decoupled-Head Attention)機構を提案する。
DHAは、様々なレイヤにわたるキーヘッドとバリューヘッドのグループ共有を適応的に構成し、パフォーマンスと効率のバランスを改善する。
我々の実験によると、DHAは97.6%の性能を達成するために、オリジナルのモデルの事前訓練予算のわずか0.25%しか必要としていない。
論文 参考訳(メタデータ) (2024-06-03T13:28:43Z) - Pit One Against Many: Leveraging Attention-head Embeddings for
Parameter-efficient Multi-head Attention [42.92397219764559]
単一の共有プロジェクション行列と多重ヘッド埋め込み(MHE)のみを使用する代替モジュールを提案する。
我々は、MHEの注意が、代替の注意機構よりもはるかにメモリ効率が高いことを実証的に実証した。
論文 参考訳(メタデータ) (2023-10-11T21:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。