論文の概要: Spectral Conditioning of Attention Improves Transformer Performance
- arxiv url: http://arxiv.org/abs/2603.07162v1
- Date: Sat, 07 Mar 2026 11:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.983251
- Title: Spectral Conditioning of Attention Improves Transformer Performance
- Title(参考訳): スペクトル条件付アテンションは変圧器の性能を向上する
- Authors: Hemanth Saratchandran, Simon Lucey,
- Abstract要約: 本稿では,ジャコビアン条件数を削減するために,各注目層のスペクトル特性を変化させる手法を提案する。
この改良されたヤコビ条件付けが実際に性能の向上につながることを実証的に示す。
我々のアプローチはシンプルで広く適用でき、様々な注意機構のドロップイン代替として容易に統合できる。
- 参考スコア(独自算出の注目度): 32.435722001652174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a theoretical analysis of the Jacobian of an attention block within a transformer, showing that it is governed by the query, key, and value projections that define the attention mechanism. Leveraging this insight, we introduce a method that systematically alters the spectral properties of each attention layer to reduce the Jacobian's condition number, thereby improving the overall conditioning of the attention layers within a transformer network. We empirically show that this improved Jacobian conditioning translates to enhanced performance in practice. Our approach is simple, broadly applicable, and can be easily integrated as a drop-in replacement for a wide range of existing attention mechanisms. We validate its effectiveness across diverse transformer architectures and tasks, demonstrating consistent improvements in performance.
- Abstract(参考訳): 本稿では, コンバータ内の注意ブロックのジャコビアンを理論的に解析し, 注意機構を定義するクエリ, キー, 値投影によって制御されていることを示す。
この知見を生かして,各アテンション層のスペクトル特性を体系的に変化させ,ヤコビアン条件数を削減することにより,トランスフォーマネットワーク内のアテンション層の全体的な条件付けを改善する手法を提案する。
この改良されたヤコビ条件付けが実際に性能の向上につながることを実証的に示す。
我々のアプローチはシンプルで広く適用でき、様々な注意機構のドロップイン代替として容易に統合できる。
多様なトランスフォーマーアーキテクチャやタスクにまたがって有効性を検証し、一貫した性能向上を実証する。
関連論文リスト
- Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Enhancing Transformers Through Conditioned Embedded Tokens [32.435722001652174]
本研究では,アテンションブロックの条件付けと埋め込みトークン化データの条件付けの直接的な関係を確立する理論的枠組みを開発する。
本研究では,アテンション機構のコンディショニングを改善するために,組込みトークンを体系的に修正するコンディショニングトークンを導入する。
我々の分析は、このアプローチが不調を著しく軽減し、より安定かつ効率的な訓練につながることを示している。
論文 参考訳(メタデータ) (2025-05-19T07:21:53Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - Convexifying Transformers: Improving optimization and understanding of
transformer networks [56.69983975369641]
本研究では,注目/変圧器ネットワークのトレーニング問題について検討し,新しい凸解析手法を提案する。
まず,自己注意機構の代替として凸を導入し,変圧器ネットワークの正規化学習問題を再構成する。
凸解析の副産物として,トークン間の空間性を促進する暗黙の規則化機構を明らかにする。
論文 参考訳(メタデータ) (2022-11-20T18:17:47Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。