論文の概要: Tucker Attention: A generalization of approximate attention mechanisms
- arxiv url: http://arxiv.org/abs/2603.30033v1
- Date: Tue, 31 Mar 2026 17:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.955154
- Title: Tucker Attention: A generalization of approximate attention mechanisms
- Title(参考訳): タッカー注意:近似的注意機構の一般化
- Authors: Timon Klein, Jonas Kusch, Sebastian Sager, Stefan Schnake, Steffen Schotthöfer,
- Abstract要約: この研究は、自己アテンション層における重みオブジェクトの一般化されたビューと、Tucker Attentionと呼ばれる因子化戦略を提案する。
Tucker Attentionは、GQAやMLAと比較して、同等のバリデーションメトリクスに対して、桁違いに少ないパラメータを必要とする。
この一般化戦略は、MHA、GQA、MLAによって達成された実際のランクの洞察を与える。
- 参考スコア(独自算出の注目度): 3.5775790395875195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pursuit of reducing the memory footprint of the self-attention mechanism in multi-headed self attention (MHA) spawned a rich portfolio of methods, e.g., group-query attention (GQA) and multi-head latent attention (MLA). The methods leverage specialized low-rank factorizations across embedding dimensions or attention heads. From the point of view of classical low-rank approximation, these methods are unconventional and raise questions of which objects they really approximate and how to interpret the low-rank behavior of the resulting representations. To answer these questions, this work proposes a generalized view on the weight objects in the self-attention layer and a factorization strategy, which allows us to construct a parameter efficient scheme, called Tucker Attention. Tucker Attention requires an order of magnitude fewer parameters for comparable validation metrics, compared to GQA and MLA, as evaluated in LLM and ViT test cases. Additionally, Tucker Attention~encompasses GQA, MLA, MHA as special cases and is fully compatible with flash-attention and rotary position embeddings (RoPE). This generalization strategy yields insights of the actual ranks achieved by MHA, GQA, and MLA, and further enables simplifications for MLA.
- Abstract(参考訳): MHA(Multi-headed Self attention)における自己注意機構のメモリフットプリントを減らそうとする試みは、GQA(group-query attention)やMLA(multi-head latent attention)といった、豊富な手法のポートフォリオを生み出した。
これらの手法は、埋め込み次元や注目ヘッドにまたがる特殊な低ランクの分解を利用する。
古典的な低ランク近似の観点からは、これらの手法は非伝統的であり、どの対象が実際に近似しているか、そして結果の表現の低ランクな振る舞いをどのように解釈するかという疑問を提起する。
これらの疑問に答えるために,本研究では,自己注意層における重みオブジェクトの一般化と因子化戦略を提案し,タッカー注意(Tucker Attention)と呼ばれるパラメータ効率のよいスキームを構築することができる。
タッカー注意(Tucker Attention)は、LLMおよびViTテストケースで評価されるように、GQAやMLAと比較して、同等の検証指標に対して、桁違いに少ないパラメータを必要とする。
加えて、Tucker AttentionはGQA、MLA、MHAを特別なケースとして扱い、フラッシュアテンションと回転位置埋め込み(RoPE)と完全に互換性がある。
この一般化戦略は、MHA、GQA、MLAによって達成された実際のランクの洞察を与え、さらにMLAの単純化を可能にする。
関連論文リスト
- A Statistical Theory of Gated Attention through the Lens of Hierarchical Mixture of Experts [80.98474052840929]
ゲーテッドアテンションは、標準アテンションにおける低ランクマッピングの表現性を高めることを実証的に実証されている。
有向注意行列や多頭部自己注意行列の各項目は、専門家の階層的な混合として記述できることを示す。
論文 参考訳(メタデータ) (2026-02-01T22:22:13Z) - Nexus: Higher-Order Attention Mechanisms in Transformers [82.07756094886552]
トランスフォーマーは、依存関係をキャプチャするための自己アテンションに依存して、さまざまなドメインで大きな成功を収めています。
本稿では,再帰フレームワークによる表現力向上を目的とした新しいアーキテクチャであるNexusを提案する。
我々は,本手法が標準注意の線形ボトルネックを突破することを示す理論的解析を行った。
論文 参考訳(メタデータ) (2025-12-03T02:25:38Z) - Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization [56.083511902353365]
強化学習(Reinforcement Learning, RL)は、一般的に、大規模言語モデルの全世代にわたって一様クレジットを適用する。
この研究は、LSMの内部論理を推論自体の機械的青写真として描画する特権基板として注意を向けている。
クリティカルノードに対するターゲットクレジット割り当てを動的に行う3つの新しいRL戦略を導入する。
論文 参考訳(メタデータ) (2025-10-15T13:49:51Z) - Attention, Please! Revisiting Attentive Probing Through the Lens of Efficiency [20.320991233039965]
微調整が大規模で非現実的になると、好ましい評価プロトコルとして探索が出現する。
これは注意力を使ってパッチレベルの機能を選択的に集約する代替手段である注意力調査の必要性を動機付けている。
本稿では,既存の手法を総合的に検討し,その設計選択を解析し,性能をベンチマークする。
論文 参考訳(メタデータ) (2025-06-11T21:10:26Z) - Multi-Token Attention [42.038277620194]
本稿では,複数クエリとキーベクトルを同時に重み付けできる新しいアテンション手法であるMulti-Token Attention (MTA)を提案する。
提案手法は, 1つのベクトルの容量を超えるような, より豊かでニュアンスの高い情報を用いて, 関連するコンテキストを特定できる。
論文 参考訳(メタデータ) (2025-04-01T15:59:32Z) - SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。
Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。
評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-17T07:07:09Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z) - Generic Attention-model Explainability by Weighted Relevance
Accumulation [9.816810016935541]
本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。
提案手法を評価するために,CLIPをベースとした2段階モデルCLIPmapperを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。