論文の概要: MoH: Multi-Head Attention as Mixture-of-Head Attention
- arxiv url: http://arxiv.org/abs/2410.11842v1
- Date: Tue, 15 Oct 2024 17:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:28.546446
- Title: MoH: Multi-Head Attention as Mixture-of-Head Attention
- Title(参考訳): MoH:Mixture-of-Headアテンションとしてのマルチヘッドアテンション
- Authors: Peng Jin, Bo Zhu, Li Yuan, Shuicheng Yan,
- Abstract要約: 我々は、トランスフォーマーモデルのコアであるマルチヘッドアテンション機構をアップグレードし、以前の精度を維持したり、超えたりしながら効率を向上させる。
そこで我々は,Mixture-of-Head attention (MoH)を提案する。
まず、MoHは各トークンが適切なアテンションヘッドを選択することを可能にし、精度を損なうことなく推論効率を向上させる。
- 参考スコア(独自算出の注目度): 63.67734699877724
- License:
- Abstract: In this work, we upgrade the multi-head attention mechanism, the core of the Transformer model, to improve efficiency while maintaining or surpassing the previous accuracy level. We show that multi-head attention can be expressed in the summation form. Drawing on the insight that not all attention heads hold equal significance, we propose Mixture-of-Head attention (MoH), a new architecture that treats attention heads as experts in the Mixture-of-Experts (MoE) mechanism. MoH has two significant advantages: First, MoH enables each token to select the appropriate attention heads, enhancing inference efficiency without compromising accuracy or increasing the number of parameters. Second, MoH replaces the standard summation in multi-head attention with a weighted summation, introducing flexibility to the attention mechanism and unlocking extra performance potential. Extensive experiments on ViT, DiT, and LLMs demonstrate that MoH outperforms multi-head attention by using only 50%-90% of the attention heads. Moreover, we demonstrate that pre-trained multi-head attention models, such as LLaMA3-8B, can be further continue-tuned into our MoH models. Notably, MoH-LLaMA3-8B achieves an average accuracy of 64.0% across 14 benchmarks, outperforming LLaMA3-8B by 2.4% by utilizing only 75% of the attention heads. We believe the proposed MoH is a promising alternative to multi-head attention and provides a strong foundation for developing advanced and efficient attention-based models.
- Abstract(参考訳): 本研究では,トランスフォーマーモデルのコアであるマルチヘッドアテンション機構を改良し,従来の精度を維持しながら効率を向上する。
マルチヘッドアテンションを要約形式で表現できることが示される。
ここでは,すべての注意点が同等に重要であるという認識に基づいて,注意点をMixture-of-Head attention (MoH) 機構の専門家として扱う新しいアーキテクチャを提案する。
まず、MoHは各トークンが適切なアテンションヘッドを選択することを可能にし、精度を損なうことなく推論効率を向上させる。
第二に、MoHはマルチヘッドアテンションの標準的な和を重み付けの和に置き換え、アテンションメカニズムに柔軟性を導入し、さらなるパフォーマンスポテンシャルを解放する。
ViT, DiT, LLMの広範囲な実験により、MoHは注目ヘッドの50%-90%しか使用せず、マルチヘッドよりも優れていることが示された。
さらに,LLaMA3-8Bのような事前学習型マルチヘッドアテンションモデルをさらにMoHモデルに組み込むことが可能であることを実証した。
特に、MoH-LLaMA3-8Bは14のベンチマークで平均64.0%の精度を達成し、LLaMA3-8Bより2.4%上回った。
提案したMoHはマルチヘッドアテンションに代わる有望な代替品であり、高度で効率的なアテンションベースモデルを開発するための強力な基盤を提供する。
関連論文リスト
- MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts大言語モデル(MoE-LLM)のためのトレーニング不要なMixture-CompressorであるMC-MoEを提案する。
MC-MoEは、専門家とトークンの両方の重要性を活用して極端な圧縮を実現する。
例えば、MC-MoEは2.54ビットで76.6%の圧縮を行い、平均精度損失は3.8%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - Pit One Against Many: Leveraging Attention-head Embeddings for
Parameter-efficient Multi-head Attention [42.92397219764559]
単一の共有プロジェクション行列と多重ヘッド埋め込み(MHE)のみを使用する代替モジュールを提案する。
我々は、MHEの注意が、代替の注意機構よりもはるかにメモリ効率が高いことを実証的に実証した。
論文 参考訳(メタデータ) (2023-10-11T21:38:40Z) - Finding the Pillars of Strength for Multi-Head Attention [35.556186723898485]
最近の研究は、MHA(Multi-Head Attention)の問題を明らかにしている。
我々は,グループ・アテンション・ヘッドを用いた自己監督型グループ・制約によって訓練されたグループ・ヘッド・アテンションを提案する。
また、冗長なヘッドを除去するVoting-to-Stay法を提案し、より軽量なトランスを実現する。
論文 参考訳(メタデータ) (2023-05-22T03:44:44Z) - Mixture of Attention Heads: Selecting Attention Heads Per Token [40.04159325505842]
Mixture of Attention Heads (MoA)は、マルチヘッドアテンションとMoEメカニズムを組み合わせた新しいアーキテクチャである。
MoAは、標準的なマルチヘッドアテンション層よりも強力なパフォーマンスを実現している。
MoAはまた、ヘッドのユーティリティを自動的に区別し、モデルの解釈可能性について議論するための新しい視点を提供する。
論文 参考訳(メタデータ) (2022-10-11T04:54:05Z) - M2A: Motion Aware Attention for Accurate Video Action Recognition [86.67413715815744]
我々は,動作特性を明示的に組み込んだM2A(Motion Aware Attention)と呼ばれる新しい注意機構を開発した。
M2Aは連続するフレーム間の動き情報を抽出し、フレーム全体で見られる動きパターンに注目して、ビデオ中の動作を正確に認識する。
提案したM2A機構を用いて,動作機構をアテンション機構に組み込むことで,異なるバックボーンアーキテクチャにおいて,トップ1の精度が15%から26%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-18T23:38:09Z) - Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference [68.12511526813991]
ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-09-20T06:32:23Z) - Multi-head Monotonic Chunkwise Attention For Online Speech Recognition [12.619595173472465]
我々は,MoChAの改良版であるMTH-MoChAを提案する。
MTH-MoChAは入力シーケンスを小さなチャンクに分割し、チャンク上のマルチヘッドアテンションを計算する。
AISHELL-1データの実験では、提案されたモデルとトレーニング戦略により、MoChAの文字誤り率(CER)がテストセットで8.96%から7.68%に改善された。
論文 参考訳(メタデータ) (2020-05-01T04:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。