論文の概要: FLatten Transformer: Vision Transformer using Focused Linear Attention
- arxiv url: http://arxiv.org/abs/2308.00442v2
- Date: Fri, 1 Sep 2023 08:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 16:22:40.353992
- Title: FLatten Transformer: Vision Transformer using Focused Linear Attention
- Title(参考訳): 焦点付き線形アテンションを用いたFLatten Transformer:視覚変換器
- Authors: Dongchen Han, Xuran Pan, Yizeng Han, Shiji Song, Gao Huang
- Abstract要約: 線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
- 参考スコア(独自算出の注目度): 80.61335173752146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic computation complexity of self-attention has been a persistent
challenge when applying Transformer models to vision tasks. Linear attention,
on the other hand, offers a much more efficient alternative with its linear
complexity by approximating the Softmax operation through carefully designed
mapping functions. However, current linear attention approaches either suffer
from significant performance degradation or introduce additional computation
overhead from the mapping functions. In this paper, we propose a novel Focused
Linear Attention module to achieve both high efficiency and expressiveness.
Specifically, we first analyze the factors contributing to the performance
degradation of linear attention from two perspectives: the focus ability and
feature diversity. To overcome these limitations, we introduce a simple yet
effective mapping function and an efficient rank restoration module to enhance
the expressiveness of self-attention while maintaining low computation
complexity. Extensive experiments show that our linear attention module is
applicable to a variety of advanced vision Transformers, and achieves
consistently improved performances on multiple benchmarks. Code is available at
https://github.com/LeapLabTHU/FLatten-Transformer.
- Abstract(参考訳): 視覚タスクにTransformerモデルを適用する場合、自己注意の二次計算複雑性は永続的な課題である。
一方、線形注意は、注意深く設計されたマッピング関数を通じてソフトマックス操作を近似することにより、線形複雑性を持つより効率的な代替手段を提供する。
しかし、現在の線形注意アプローチは、著しい性能低下またはマッピング関数から追加の計算オーバーヘッドをもたらすかのどちらかである。
本稿では,高効率と表現性の両方を実現するために,新しいFocusted Linear Attentionモジュールを提案する。
具体的には, フォーカス能力と特徴の多様性という2つの視点から, 線形注意力の低下に寄与する要因を最初に分析した。
これらの制限を克服するために,計算複雑性を低く保ちながら自己注意の表現性を高めるため,単純で効果的なマッピング機能と効率的なランク復元モジュールを導入する。
広範な実験により,様々な高度な視覚トランスフォーマーに適用可能なリニアアテンションモジュールが,複数のベンチマークで一貫した性能向上を実現していることが示された。
コードはhttps://github.com/LeapLabTHU/FLatten-Transformerで入手できる。
関連論文リスト
- Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - ViTALiTy: Unifying Low-rank and Sparse Approximation for Vision
Transformer Acceleration with a Linear Taylor Attention [23.874485033096917]
Vision Transformer (ViT)は、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワークの競合代替として登場した。
そこで本研究では,VitaliTy という,VT の推論効率向上のためのハードウェア設計フレームワークを提案する。
ViTALiTyは、ViTにおける注目の低ランクとスパースの両方のコンポーネントを統合する。
論文 参考訳(メタデータ) (2022-11-09T18:58:21Z) - The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文 参考訳(メタデータ) (2022-10-19T07:15:35Z) - Linear Video Transformer with Feature Fixation [34.324346469406926]
ビジョントランスフォーマーは、ソフトマックスのアテンション機構によって引き起こされる二次的な複雑さに悩まされながら、ビデオ分類において印象的なパフォーマンスを達成した。
本稿では、線形注意を計算する前に、クエリとキーの特徴的重要性を再重み付けする機能固定モジュールを提案する。
我々は,3つの人気ビデオ分類ベンチマークを用いて,線形ビデオ変換器の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T02:20:50Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。