論文の概要: Do Transformers Need Three Projections? Systematic Study of QKV Variants
- arxiv url: http://arxiv.org/abs/2606.04032v2
- Date: Thu, 04 Jun 2026 17:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 19:21:33.29143
- Title: Do Transformers Need Three Projections? Systematic Study of QKV Variants
- Title(参考訳): 変圧器は3つの射影を必要とするか? : QKV変数の体系的研究
- Authors: Ali Kayyam, Anusha Madan Gopal, M Anthony Lewis,
- Abstract要約: Q-K=Vは、キーと値が同様の表現空間を占有し、注目が低ランクな状態で動作するため、品質を保っていることを示す。
提案手法は,投射共有を注目の重み付けの未探索例として体系的に特徴付ける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
- Abstract(参考訳): トランスフォーマーは、クエリ、キー、値(QKV)のアテンション定式化が中心的な役割を果たすなど、さまざまなAIタスクの標準ソリューションになっています。
しかし、これら3つの予想の個々の貢献と、これらを省略する影響は、いまだに理解されていない。
3つの予測共有制約を体系的に評価する。
a) Q-K=V(共有鍵値)
b) Q=K-V(共有クエリキー)及び
c) Q=K=V(単射影)
最後の2つの変種は対称的なアテンションマップを生成するが、これに対処するためには2次元位置エンコーディングを通して非対称アテンションを探索する。
合成タスク、視覚(MNIST, CIFAR, TinyImageNet, anomaly)、言語モデリング(10Bトークン上の300Mおよび1.2Bパラメータモデル)にまたがる実験により、我々のトランスフォーマーはQKVトランスよりも同等または時折優れていることがわかった。
言語モデリングでは、Q-K=Vプロジェクション共有は50%のKVキャッシュ削減を実現し、難易度はわずか3.1%である。
Q-K=VとGQA-4を併用すると87.5%のキャッシュが削減され、Q-K=V + MQAは96.9%となり、実際のデバイス上での推論が可能となる。
Q=K=Vは、キーと値が同様の表現空間を占有し、注目が低ランクな状態にあるのに対して、Q=K=Vは注意方向を損なうため、品質を保っていることを示す。
提案手法は,プロジェクション共有を,特にエッジ展開に有用な直接的,定量的な推論メモリのメリットを備えた,注目の重み付けの未検討例として,体系的に特徴付けている。
コードはhttps://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projectionsで公開されている。
関連論文リスト
- Do Quantum Transformers Help? A Systematic VQC Architecture Comparison on Tabular Benchmarks [2.005299372367689]
変分量子回路(VQCs)は、短期デバイス上での量子機械学習における主要なアプローチである。
マルチ層完全連結(FC-VQC)、残留(ResNet-VQC)、ハイブリッド量子古典変換器(QT)、完全量子変換器(FQT)の4つのVQC族を比較した。
FC-VQCは、40-50%少ないパラメータを使用しながら、注目ベースのVQCのR2$の90-96%を達成している。
これらの知見は、短期量子ハードウェアにVQCをデプロイするための実用的なアーキテクチャガイダンスを提供する。
論文 参考訳(メタデータ) (2026-04-27T01:13:14Z) - CoV: Chain-of-View Prompting for Spatial Reasoning [64.77921266428824]
CoV(Chain-of-View)は、視覚言語モデルをアクティブな視点推論子に変換する。
我々はOpenEQA上でのCoVの評価を行い、Qwen3-VL-Flashで最大13.62%向上したLLM-Matchで平均+11.56%改善した。
論文 参考訳(メタデータ) (2026-01-08T17:59:42Z) - Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials [34.77694214755808]
MHSA(Multi-Head Self-Attention)の代替品であるVCA(Visual-Contrast Attention)を導入する。
VCAは、O(N N C) から O(N n C) への理論複雑性を n N で減少させながら、識別の明示的な概念を注入する。
モジュールはDeiT-Tinyのバックボーンに0.3M以下のパラメータを追加し、追加のFLOPを必要とせず、完全にアーキテクチャに依存しない。
論文 参考訳(メタデータ) (2025-11-02T07:04:12Z) - PTQAT: A Hybrid Parameter-Efficient Quantization Algorithm for 3D Perception Tasks [9.463776523295303]
ポストトレーニング量子化(PTQ)と量子アウェアトレーニング(QAT)は、2つの主流モデル量子化アプローチを表す。
本稿では,3次元知覚ネットワークの効率的な展開のための新しいハイブリッド量子化アルゴリズムPTQATを提案する。
論文 参考訳(メタデータ) (2025-08-14T11:55:21Z) - StarVQA+: Co-training Space-Time Attention for Video Quality Assessment [56.548364244708715]
自己注意に基づくトランスフォーマーは多くのコンピュータビジョンタスクで大きな成功を収めた。
しかし,ビデオ品質評価(VQA)への適用は今のところ不十分である。
本稿では,StarVQA+と呼ばれる,VQA問題に対する協調学習型空間時間注意ネットワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T14:27:31Z) - Efficient and Equivariant Graph Networks for Predicting Quantum
Hamiltonian [72.57870177599492]
本稿では,効率と等価性を実現するSE(3)-equivariant Network,QHNetを提案する。
我々の重要な進歩はQHNetアーキテクチャの革新的な設計であり、基礎となる対称性に従うだけでなく、テンソル製品の数を92%削減できる。
実験結果から,我々のQHNetは最先端の手法に匹敵する性能を極めて高速に達成できることが示された。
論文 参考訳(メタデータ) (2023-06-08T03:47:33Z) - Key-Value Transformer [47.64219291655723]
キー値定式化(KV)は2次元位置符号化をアテンション行列に組み込んだ非対称版とともに対称アテンションマップを生成する。
実験には3つのタスクタイプ - 合成(リストの反転やソートなど)、視覚(mnistまたはcifar classification)、NLP - が含まれる。
論文 参考訳(メタデータ) (2023-05-28T20:26:06Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。