論文の概要: Vision Transformers are Circulant Attention Learners
- arxiv url: http://arxiv.org/abs/2512.21542v1
- Date: Thu, 25 Dec 2025 07:28:33 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:58:49.714074
- Title: Vision Transformers are Circulant Attention Learners
- Title(参考訳): 視覚変換器は循環型注意学習器である
- Authors: Dongchen Han, Tianyu Li, Ziyi Wang, Gao Huang,
- Abstract要約: 自己注意機構は視覚変換器の進歩の鍵となる要素である。
我々は,自己注意の本質的効率的なパターンを生かして,textbfCirculant Attentionと呼ばれる新しい注意パラダイムを提案する。
- 参考スコア(独自算出の注目度): 30.300457741980846
- License:
- Abstract: The self-attention mechanism has been a key factor in the advancement of vision Transformers. However, its quadratic complexity imposes a heavy computational burden in high-resolution scenarios, restricting the practical application. Previous methods attempt to mitigate this issue by introducing handcrafted patterns such as locality or sparsity, which inevitably compromise model capacity. In this paper, we present a novel attention paradigm termed \textbf{Circulant Attention} by exploiting the inherent efficient pattern of self-attention. Specifically, we first identify that the self-attention matrix in vision Transformers often approximates the Block Circulant matrix with Circulant Blocks (BCCB), a kind of structured matrix whose multiplication with other matrices can be performed in $\mathcal{O}(N\log N)$ time. Leveraging this interesting pattern, we explicitly model the attention map as its nearest BCCB matrix and propose an efficient computation algorithm for fast calculation. The resulting approach closely mirrors vanilla self-attention, differing only in its use of BCCB matrices. Since our design is inspired by the inherent efficient paradigm, it not only delivers $\mathcal{O}(N\log N)$ computation complexity, but also largely maintains the capacity of standard self-attention. Extensive experiments on diverse visual tasks demonstrate the effectiveness of our approach, establishing circulant attention as a promising alternative to self-attention for vision Transformer architectures. Code is available at https://github.com/LeapLabTHU/Circulant-Attention.
- Abstract(参考訳): 自己注意機構は視覚変換器の進歩の鍵となる要素である。
しかし、その二次的な複雑さは、高解像度のシナリオにおいて計算上の重荷を課し、実用的な応用を制限している。
従来の手法では、局所性や空間性といった手作りのパターンを導入してこの問題を緩和しようとするが、これは必然的にモデルの容量を損なう。
本稿では,自己注意の本質的効率的なパターンを生かして,‘textbf{Circulant Attention}’と呼ばれる新しい注意パラダイムを提案する。
具体的には、視覚変換器の自己注意行列が、他の行列との乗算を$\mathcal{O}(N\log N)$時間で行うことができる構造化行列の一種であるCirculant Blocks (BCCB) とよく近似する。
この興味深いパターンを生かして、アテンションマップを最も近いBCCB行列として明示的にモデル化し、高速計算のための効率的な計算アルゴリズムを提案する。
結果として得られたアプローチは、BCCB行列の使用においてのみ異なるバニラ自己注意を密接に反映している。
我々の設計は本質的に効率的なパラダイムにインスパイアされているため、$\mathcal{O}(N\log N)$計算複雑性を提供するだけでなく、標準的な自己注意能力も維持している。
多様な視覚的タスクに関する大規模な実験は、我々のアプローチの有効性を実証し、視覚トランスフォーマーアーキテクチャに対する自己注意の代替として循環的注意を確立する。
コードはhttps://github.com/LeapLabTHU/Circulant-Attentionで入手できる。
関連論文リスト
- Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction [29.12836710966048]
本稿では,トークン数に応じて計算複雑性が線形にスケールする新しいトランスフォーマーアテンション演算子を提案する。
本研究は, トランスフォーマーアーキテクチャの成功に対して, ペアワイズ類似性スタイルの注意機構が重要であるという従来の知恵に疑問を投げかけるものである。
論文 参考訳(メタデータ) (2024-12-23T18:59:21Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - PolySketchFormer: Fast Transformers via Sketching Polynomial Kernels [23.99075223506133]
モデル品質を犠牲にすることなくソフトマックスを効果的に置き換えることができることを示す。
本稿では,因果マスキングを効率的に適用するためのブロックベースアルゴリズムを提案する。
PolySketchFormerAttentionは、長いコンテキストを扱える言語モデルを訓練することで実証的に検証する。
論文 参考訳(メタデータ) (2023-10-02T21:39:04Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - DAE-Former: Dual Attention-guided Efficient Transformer for Medical
Image Segmentation [3.9548535445908928]
DAE-Formerは,自己認識機構を効率的に設計することで,新たな視点の提供を目指す新しい手法である。
本手法は, プレトレーニング重量を必要とせずに, 多臓器心病変と皮膚病変のセグメンテーションデータセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-12-27T14:39:39Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。