論文の概要: Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation
- arxiv url: http://arxiv.org/abs/2604.10098v1
- Date: Sat, 11 Apr 2026 08:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.839227
- Title: Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation
- Title(参考訳): 変圧器の注意シンク:利用・解釈・緩和に関する調査
- Authors: Zunhai Su, Hengyuan Zhang, Wei Wu, Yifan Zhang, Yaxiu Liu, He Xiao, Qingyao Yang, Yuxuan Sun, Rui Yang, Chao Zhang, Keyu Fan, Weihao Ye, Jing Xiong, Hui Shen, Chaofan Tao, Taiqiang Wu, Zhongwei Wan, Yulei Qian, Yuchen Xie, Ngai Wong,
- Abstract要約: Attention Sink (AS)は、様々なトランスフォーマーにまたがる永続的なチャレンジである。
ASは解釈可能性を複雑にし、トレーニングや推論のダイナミクスに大きな影響を与え、幻覚などの問題を悪化させる。
本稿は,現在の研究状況を定義する3つの重要な次元を中心に構築されたASに関する最初の調査である。
- 参考スコア(独自算出の注目度): 41.411171985673526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the foundational architecture of modern machine learning, Transformers have driven remarkable progress across diverse AI domains. Despite their transformative impact, a persistent challenge across various Transformers is Attention Sink (AS), in which a disproportionate amount of attention is focused on a small subset of specific yet uninformative tokens. AS complicates interpretability, significantly affecting the training and inference dynamics, and exacerbates issues such as hallucinations. In recent years, substantial research has been dedicated to understanding and harnessing AS. However, a comprehensive survey that systematically consolidates AS-related research and offers guidance for future advancements remains lacking. To address this gap, we present the first survey on AS, structured around three key dimensions that define the current research landscape: Fundamental Utilization, Mechanistic Interpretation, and Strategic Mitigation. Our work provides a pivotal contribution by clarifying key concepts and guiding researchers through the evolution and trends of the field. We envision this survey as a definitive resource, empowering researchers and practitioners to effectively manage AS within the current Transformer paradigm, while simultaneously inspiring innovative advancements for the next generation of Transformers. The paper list of this work is available at https://github.com/ZunhaiSu/Awesome-Attention-Sink.
- Abstract(参考訳): 現代の機械学習の基本アーキテクチャとして、トランスフォーマーは多様なAIドメインをまたいだ顕著な進歩を導いてきた。
変換的影響にもかかわらず、様々なトランスフォーマーにまたがる永続的な課題は注意シンク(AS: Attention Sink)であり、不均等な量の注意が特定の非形式的トークンの小さなサブセットに集中している。
ASは解釈可能性を複雑にし、トレーニングや推論のダイナミクスに大きな影響を与え、幻覚などの問題を悪化させる。
近年,ASの理解と活用に関する研究が盛んに行われている。
しかし、AS関連研究を体系的に統合し、今後の進歩のためのガイダンスを提供する包括的調査は依然として不十分である。
このギャップに対処するため,本研究では,現在の研究領域である基礎利用,機械的解釈,戦略緩和の3つの重要な側面を中心に構築されたASに関する最初の調査を報告する。
私たちの研究は、重要な概念を明確にし、フィールドの進化とトレンドを通じて研究者を導くことで、重要な貢献を提供します。
我々は、この調査を決定的なリソースとして想定し、研究者や実践者が現在のトランスフォーマーパラダイム内でASを効果的に管理し、同時に次世代トランスフォーマーの革新的な進歩を刺激する。
この研究のペーパーリストはhttps://github.com/ZunhaiSu/Awesome-Attention-Sink.comで公開されている。
関連論文リスト
- SoK: Leveraging Transformers for Malware Analysis [8.999677363643224]
トランスフォーマーの導入は、生成AIの基礎となるトランスフォーマーとして、AI研究と応用にとって重要なブレークスルーとなった。
トランスフォーマーのための有望なアプリケーションドメインはサイバーセキュリティ、特にマルウェアドメイン分析である。
本論文は,マルウェア解析用に設計されたトランスフォーマーベースのアプローチを包括的に分析することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T14:14:07Z) - Transformer for Object Re-Identification: A Survey [69.61542572894263]
ビジョントランスフォーマーは、TransformerベースのRe-IDをさらに深く研究している。
本稿では、TransformerベースのRe-IDの総合的なレビューと詳細な分析を行う。
本稿では,教師なしRe-IDのトレンドを考えると,最先端性能を実現するための新しいトランスフォーマーベースラインUntransReIDを提案する。
論文 参考訳(メタデータ) (2024-01-13T03:17:57Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Object Detection with Transformers: A Review [11.255962936937744]
本報告では, 従来のDETRモデルにおいて提案された21の進歩について概説する。
我々は、様々な検出変換器の比較分析を行い、その性能とネットワークアーキテクチャを評価した。
この研究は、既存の課題に対処し、オブジェクト検出領域におけるトランスフォーマーの適用を探求する研究者の間で、さらなる関心を喚起することを期待している。
論文 参考訳(メタデータ) (2023-06-07T16:13:38Z) - Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。
人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文 参考訳(メタデータ) (2022-09-13T02:57:05Z) - Transformers in Time Series: A Survey [66.50847574634726]
時系列モデリングのためのTransformerスキームを,その強みと限界を強調して体系的にレビューする。
ネットワーク構造の観点から、トランスフォーマーに施された適応と修正を要約する。
応用の観点からは,予測,異常検出,分類などの共通タスクに基づいて時系列変換器を分類する。
論文 参考訳(メタデータ) (2022-02-15T01:43:27Z) - Transformers in Medical Imaging: A Survey [88.03790310594533]
トランスフォーマーはいくつかのコンピュータビジョン問題に適用され、最先端の結果が得られた。
医療画像はまた、局所受容野を持つCNNと比較して、グローバルな文脈を捉えられるトランスフォーマーへの関心が高まっている。
本稿では,最近提案された建築設計から未解決問題に至るまで,医療画像におけるトランスフォーマーの応用について概説する。
論文 参考訳(メタデータ) (2022-01-24T18:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。