論文の概要: QUEST: A robust attention formulation using query-modulated spherical attention
- arxiv url: http://arxiv.org/abs/2604.00199v1
- Date: Tue, 31 Mar 2026 20:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.703429
- Title: QUEST: A robust attention formulation using query-modulated spherical attention
- Title(参考訳): QUEST:クエリ変調球面アテンションを用いた頑健なアテンション定式化
- Authors: Hariprasath Govindarajan, Per Sidén, Jacob Roll, Fredrik Lindsten,
- Abstract要約: クエリとキーのノルムが果たす役割について検討する。
本稿では,キーを超球面潜在空間に制限する新しいアテンション形式 QUEry-modulated Spherical aTtention (QUEST) を提案する。
QUESTは、標準的な注意の代替として簡単に利用できる。
- 参考スコア(独自算出の注目度): 12.908688634483253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer model architecture has become one of the most widely used in deep learning and the attention mechanism is at its core. The standard attention formulation uses a softmax operation applied to a scaled dot product between query and key vectors. We explore the role played by norms of the queries and keys, which can cause training instabilities when they arbitrarily increase. We demonstrate how this can happen even in simple Transformer models, in the presence of easy-to-learn spurious patterns in the data. We propose a new attention formulation, QUEry-modulated Spherical aTtention (QUEST), that constrains the keys to a hyperspherical latent space, while still allowing individual tokens to flexibly control the sharpness of the attention distribution. QUEST can be easily used as a drop-in replacement for standard attention. We focus on vision applications while also exploring other domains to highlight the method's generality. We show that (1) QUEST trains without instabilities and (2) produces models with improved performance (3) that are robust to data corruptions and adversarial attacks.
- Abstract(参考訳): Transformerモデルアーキテクチャは、ディープラーニングにおいて最も広く使われているアーキテクチャの1つとなり、注目メカニズムはその中核にある。
標準的なアテンションの定式化は、クエリとキーベクトルの間のスケールしたドット積に適用されるソフトマックス演算を使用する。
クエリとキーのノルムが果たす役割について検討する。
簡単なTransformerモデルでも、データに簡単に学習可能なスプリアスパターンが存在する場合においても、このようなことが実現可能であることを実証する。
本稿では,注目分布のシャープさを柔軟に制御しつつ,キーを超球面潜在空間に制限する新しいアテンション定式化QUEry-modulated Spherical aTtention (QUEST)を提案する。
QUESTは、標準的な注意の代替として簡単に利用できる。
我々は、他のドメインを探索しながら、ビジョンアプリケーションに焦点を当て、メソッドの汎用性を強調します。
本研究では,(1)不安定なQUEST列車と(2)データ破損や敵攻撃に対して堅牢な性能向上モデルを生成すること,を示す。
関連論文リスト
- Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction [16.426476430697587]
本稿では,ボトルネックトランスフォーマアーキテクチャを用いて,STOI(Short-Time Objective Intelligibility)メトリクスを予測する新しい手法を提案する。
両シナリオの相関性は高く,平均2乗誤差は低かった。
論文 参考訳(メタデータ) (2026-02-17T10:46:54Z) - Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers [42.80120203718226]
本稿では,入力に基づいて全体空間を調整できるElastic Attentionを提案する。
8xA800 GPU上でのトレーニングをわずか12時間以内で行うと、モデルが強い性能と効率的な推論を達成できる。
論文 参考訳(メタデータ) (2026-01-24T08:22:07Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - AttentionDrop: A Novel Regularization Method for Transformer Models [0.3262230127283452]
トランスフォーマーベースのアーキテクチャは、自然言語処理、コンピュータビジョン、音声処理において幅広いタスクで最先端のパフォーマンスを達成する。
しかし、その膨大な能力は、特にトレーニングデータに制限やノイズがある場合、過度に適合する。
本研究は,自己意識分布を直接操作する統一正規化手法のファミリーを提案する。
論文 参考訳(メタデータ) (2025-04-16T13:51:16Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文 参考訳(メタデータ) (2024-06-19T19:11:22Z) - Exploring the Space of Key-Value-Query Models with Intention [8.585795909956726]
Attentionの2つの重要なコンポーネントは、入力の構造(キー、値、クエリで構成される)と、これら3つを組み合わせる計算である。
KVQ(Keys-Values-Queries)空間と呼ぶ。
我々のゴールは、注意が効率的に近似できないKVQ空間に他の積み重ね可能なモデルが存在するかどうかを決定することである。
論文 参考訳(メタデータ) (2023-05-17T13:25:57Z) - Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。
この課題に対処するために、フレキシブルで因果的なアプローチを提案する。
この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文 参考訳(メタデータ) (2021-05-13T16:58:45Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。