論文の概要: Integral Transformer: Denoising Attention, Not Too Much Not Too Little
- arxiv url: http://arxiv.org/abs/2508.18387v1
- Date: Mon, 25 Aug 2025 18:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.5486
- Title: Integral Transformer: Denoising Attention, Not Too Much Not Too Little
- Title(参考訳): インテグレーショナル・トランスフォーマー(動画あり)
- Authors: Ivan Kobyzev, Abbas Ghaddar, Dingtao Hu, Boxing Chen,
- Abstract要約: ソフトマックスの自己注意は、特別なトークンや句読点のような意味的に非形式的なトークンに不均等な重みを割り当てる。
本稿では,ロジット分布からサンプリングした信号を統合することで注意を喚起する新しい自己認識機構であるIntegral Transformerを提案する。
提案手法は, モデル性能に重要な特別なトークンの寄与を保ちながら, ノイズを緩和する。
- 参考スコア(独自算出の注目度): 22.670315809624466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Softmax self-attention often assigns disproportionate weight to semantically uninformative tokens such as special tokens and punctuation, a phenomenon known as attention noise. While recent methods like Cog Attention and the Differential Transformer have addressed this by introducing negative attention scores, they risk discarding useful information. In this paper, we propose the Integral Transformer, a novel self-attention mechanism that denoises attention by integrating signals sampled from the logit distribution. Our approach mitigates noise while preserving the contributions of special tokens critical for model performance. Extensive experiments demonstrate that our model outperforms vanilla, Cog, and Differential attention variants on well-established knowledge and reasoning language benchmarks. Moreover, our analysis reveals that employing vanilla self-attention in the lower Transformer layers enhances performance and that the Integral Transformer effectively balances attention distributions and reduces rank collapse in upper layers.
- Abstract(参考訳): ソフトマックス・セルフアテンション(Softmax self-attention)はしばしば、注意ノイズとして知られる特別なトークンや句読点のような意味的に非形式的なトークンに不均等な重みを割り当てる。
Cog Attentionやdifferial Transformerといった最近の手法では、ネガティブなアテンションスコアを導入してこの問題に対処しているが、有用な情報を捨てるリスクがある。
本稿では,ロジット分布からサンプリングした信号を統合することで注意を損なう新しい自己認識機構であるIntegral Transformerを提案する。
提案手法は, モデル性能に重要な特殊トークンの寄与を保ちながら, ノイズを緩和する。
大規模な実験により、我々のモデルは、よく確立された知識と推論言語ベンチマークにおいて、バニラ、コグ、微分アテンションの変異よりも優れていることが示された。
さらに,下層変圧器層におけるバニラ自己注意の導入により性能が向上し,インテグレータ変換器は注意分布のバランスを効果的に保ち,上層変圧器のランク崩壊を低減する。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - Unveiling and Controlling Anomalous Attention Distribution in Transformers [8.456319173083315]
ウェイバー現象は、要素が情報への貢献に影響を与えることなく過剰な注意を吸収することを可能にする。
特定のモデルでは、位置符号化と注意パターンの違いにより、モデルによるウェイブラー要素の選択は2つの方法に分類できることがわかった。
論文 参考訳(メタデータ) (2024-06-26T11:53:35Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。