論文の概要: Short-Range Dependency Effects on Transformer Instability and a Decomposed Attention Solution
- arxiv url: http://arxiv.org/abs/2505.15548v1
- Date: Wed, 21 May 2025 14:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.682639
- Title: Short-Range Dependency Effects on Transformer Instability and a Decomposed Attention Solution
- Title(参考訳): 変圧器不安定性と分解アテンション解に対する短距離依存性の影響
- Authors: Suvadeep Hajra,
- Abstract要約: 自己アテンション機構(SA)は、トークンの豊富なベクトル表現を、他者との関係をシーケンスでモデル化することによって学習する。
SAの短距離依存関係をキャプチャする能力に制限があるため、急速に成長し、トレーニングを不安定にする。
本稿では,ロジット爆発を緩和するLong Short-attention (LS-attention)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer language models have driven significant progress across various fields, including natural language processing and computer vision. A central component of these models is the self-attention (SA) mechanism, which learns rich vector representations of tokens by modeling their relationships with others in a sequence. However, despite extensive research, transformers continue to suffer from training instability -- often manifesting as spikes or divergence in the training loss during a run. In this work, we identify one source of this instability: SA's limited ability to capture short-range dependencies, especially in tasks like language modeling, where almost every token heavily relies on its nearby neighbors. This limitation causes the pre-softmax logits of SA to grow rapidly, destabilizing training. To address this, we propose decomposing the SA into local (short-range) and global (long-range) attention heads. This decomposed attention, referred to as Long Short-attention (LS-attention), mitigates logit explosion and results in more stable training compared to an equivalent multi-head self-attention (MHSA). Empirical comparisons with two alternative training stabilization methods show that LS-attention reduces the validation perplexity to nearly 2/5 of that achieved by one method and reaches a similar perplexity as the other method using only 1/20 of the GPU hours. Additionally, our experiments demonstrate that LS-attention reduces inference latency by up to 36% compared to a state-of-the-art implementation of equivalent MHSA.
- Abstract(参考訳): トランスフォーマー言語モデルは、自然言語処理やコンピュータビジョンなど、様々な分野において大きな進歩をもたらした。
これらのモデルの中心的な構成要素は、トークンの豊富なベクトル表現を、他のものとの連続した関係をモデル化することによって学習する自己認識(SA)機構である。
しかし、大規模な研究にもかかわらず、トランスフォーマーはトレーニングの不安定さに悩まされ続けている。
特に言語モデリングのようなタスクでは、ほとんどのトークンが近隣のトークンに大きく依存しています。
この制限により、SAのソフトマックス前のロジットが急速に成長し、トレーニングが不安定になる。
そこで本研究では,SAを局所的(短距離)および大域的(長距離)アテンションヘッドに分解する手法を提案する。
これはLong Short-attention(LS-attention)と呼ばれ、ロジットの爆発を緩和し、同等のMHSA(MHSA)と比較してより安定した訓練をもたらす。
2つの代替トレーニング安定化手法との実証的な比較により、LSアテンションは検証の難易度を1つの手法で達成した手法のほぼ2/5に低減し、GPU時間のうち1/20しか使用しない他の手法と同様の難易度に達することが示された。
さらに,LSアテンションは,等価なMHSAの最先端実装と比較して,推論遅延を最大36%低減することを示した。
関連論文リスト
- The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs [40.35884943268004]
非常に長いシーケンスでは、より大きくスパースなモデルの方が小さくて密度の高いモデルよりも好ましいことを示す。
タスクやフェーズをまたいでベストを尽くす明確な戦略は存在しません。
本研究は, 厳密な注意を喚起するための新しいスケーリング法を導入し, 検証し, 実験範囲を超えている可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-24T17:39:25Z) - A low latency attention module for streaming self-supervised speech representation learning [0.4288177321445912]
SSRL(Self-latency Speech Expression Learning)は、トランスフォーマーアーキテクチャにおける一般的なユースケースである。
本稿では,低演算およびメモリ要求のSSRLアーキテクチャのトレーニングを可能にするアテンションモジュールの実装について述べる。
私たちの実装では、推論のレイテンシも1.92秒から0.16秒に短縮しています。
論文 参考訳(メタデータ) (2023-02-27T00:44:22Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - SAITS: Self-Attention-based Imputation for Time Series [6.321652307514677]
SAITSは時系列における値計算の欠落に対する自己注意機構に基づく新しい手法である。
斜めにマスキングされた2つの自己注意ブロックの重み付けされた組み合わせから、欠落した値を学ぶ。
テストの結果、SAITSは時系列計算タスクにおける最先端の手法を効率よく上回ることが示された。
論文 参考訳(メタデータ) (2022-02-17T08:40:42Z) - Targeted Supervised Contrastive Learning for Long-Tailed Recognition [50.24044608432207]
実世界のデータは、しばしば重いクラス不均衡の長い尾の分布を示す。
教師付きコントラスト学習は性能向上に寄与するが、過去のベースラインは不均衡なデータ分布によってもたらされる不均一さに悩まされている。
我々は,超球面上の特徴分布の均一性を改善するための教師付きコントラスト学習(TSC)を提案する。
論文 参考訳(メタデータ) (2021-11-27T22:40:10Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。