論文の概要: SAS: Simulated Attention Score
- arxiv url: http://arxiv.org/abs/2507.07694v1
- Date: Thu, 10 Jul 2025 12:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.390285
- Title: SAS: Simulated Attention Score
- Title(参考訳): SAS:シミュレートされた注意スコア
- Authors: Chuanyang Zheng, Jiankai Sun, Yihang Gao, Yuehao Wang, Peihao Wang, Jing Xiong, Liliang Ren, Hao Cheng, Janardhan Kulkarni, Yelong Shen, Atlas Wang, Mac Schwager, Anderson Schneider, Xiaodong Liu, Jianfeng Gao,
- Abstract要約: 我々は,多数の注目ヘッドと1頭あたりの隠れ特徴次元をシミュレートしながら,コンパクトなモデルサイズを維持するSAS(Simulated Attention Score)を導入する。
各種データセットとタスクに関する総合的な実験により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 75.1409882298863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attention mechanism is a core component of the Transformer architecture. Various methods have been developed to compute attention scores, including multi-head attention (MHA), multi-query attention, group-query attention and so on. We further analyze the MHA and observe that its performance improves as the number of attention heads increases, provided the hidden size per head remains sufficiently large. Therefore, increasing both the head count and hidden size per head with minimal parameter overhead can lead to significant performance gains at a low cost. Motivated by this insight, we introduce Simulated Attention Score (SAS), which maintains a compact model size while simulating a larger number of attention heads and hidden feature dimension per head. This is achieved by projecting a low-dimensional head representation into a higher-dimensional space, effectively increasing attention capacity without increasing parameter count. Beyond the head representations, we further extend the simulation approach to feature dimension of the key and query embeddings, enhancing expressiveness by mimicking the behavior of a larger model while preserving the original model size. To control the parameter cost, we also propose Parameter-Efficient Attention Aggregation (PEAA). Comprehensive experiments on a variety of datasets and tasks demonstrate the effectiveness of the proposed SAS method, achieving significant improvements over different attention variants.
- Abstract(参考訳): 注意機構はTransformerアーキテクチャのコアコンポーネントである。
マルチヘッドアテンション(MHA)、マルチクエリアテンション、グループクエリアテンションなど、さまざまなアテンションスコアを計算する方法が開発されている。
我々はさらにMHAを解析し、頭部あたりの隠れサイズが十分に大きくなると、注意点数が増加するにつれて、その性能が向上するのを観察する。
したがって、最小パラメータオーバヘッドでヘッド数と隠れサイズの両方を増大させることで、低コストで大幅な性能向上につながる可能性がある。
この知見に触発されて,より多数の注目ヘッドと1頭あたりの隠れ特徴次元をシミュレートしながら,コンパクトなモデルサイズを維持するSimulated Attention Score(SAS)を導入した。
これは、低次元の頭部表現を高次元空間に投影し、パラメータ数を増やすことなく効果的に注意容量を増大させることによって達成される。
ヘッダ表現の他に、キーとクエリの埋め込みの特徴次元へのシミュレーションアプローチをさらに拡張し、元のモデルサイズを保ちながら、より大きなモデルの振る舞いを模倣して表現性を高める。
パラメータコストを制御するために,パラメータ効率のよいアグリゲーション(PEAA)を提案する。
様々なデータセットとタスクに関する総合的な実験は、提案したSAS法の有効性を実証し、異なる注意変動に対する顕著な改善を実現している。
関連論文リスト
- Mixture of Hidden-Dimensions Transformer [50.40325486463241]
隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。
スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。
50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
論文 参考訳(メタデータ) (2024-12-07T13:15:22Z) - Pit One Against Many: Leveraging Attention-head Embeddings for
Parameter-efficient Multi-head Attention [42.92397219764559]
単一の共有プロジェクション行列と多重ヘッド埋め込み(MHE)のみを使用する代替モジュールを提案する。
我々は、MHEの注意が、代替の注意機構よりもはるかにメモリ効率が高いことを実証的に実証した。
論文 参考訳(メタデータ) (2023-10-11T21:38:40Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Finding the Pillars of Strength for Multi-Head Attention [35.556186723898485]
最近の研究は、MHA(Multi-Head Attention)の問題を明らかにしている。
我々は,グループ・アテンション・ヘッドを用いた自己監督型グループ・制約によって訓練されたグループ・ヘッド・アテンションを提案する。
また、冗長なヘッドを除去するVoting-to-Stay法を提案し、より軽量なトランスを実現する。
論文 参考訳(メタデータ) (2023-05-22T03:44:44Z) - A Dynamic Head Importance Computation Mechanism for Neural Machine
Translation [22.784419165117512]
複数のアテンションヘッドを使用する並列アテンション機構は、様々な用途でTransformerモデルの性能を向上させる。
本研究では,入力に対する頭部の重要度を動的に計算する動的頭部重要度計算機構(DHICM)の設計に焦点をあてる。
モデルがすべてのヘッドに同じスコアを割り当てることを防ぐために、余分な損失関数を追加し、より重要なヘッドを特定し、パフォーマンスを即興で向上する。
論文 参考訳(メタデータ) (2021-08-03T09:16:55Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。