論文の概要: FLatten Transformer: Vision Transformer using Focused Linear Attention
- arxiv url: http://arxiv.org/abs/2308.00442v2
- Date: Fri, 1 Sep 2023 08:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 16:22:40.353992
- Title: FLatten Transformer: Vision Transformer using Focused Linear Attention
- Title(参考訳): 焦点付き線形アテンションを用いたFLatten Transformer:視覚変換器
- Authors: Dongchen Han, Xuran Pan, Yizeng Han, Shiji Song, Gao Huang
- Abstract要約: 線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
- 参考スコア(独自算出の注目度): 80.61335173752146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic computation complexity of self-attention has been a persistent
challenge when applying Transformer models to vision tasks. Linear attention,
on the other hand, offers a much more efficient alternative with its linear
complexity by approximating the Softmax operation through carefully designed
mapping functions. However, current linear attention approaches either suffer
from significant performance degradation or introduce additional computation
overhead from the mapping functions. In this paper, we propose a novel Focused
Linear Attention module to achieve both high efficiency and expressiveness.
Specifically, we first analyze the factors contributing to the performance
degradation of linear attention from two perspectives: the focus ability and
feature diversity. To overcome these limitations, we introduce a simple yet
effective mapping function and an efficient rank restoration module to enhance
the expressiveness of self-attention while maintaining low computation
complexity. Extensive experiments show that our linear attention module is
applicable to a variety of advanced vision Transformers, and achieves
consistently improved performances on multiple benchmarks. Code is available at
https://github.com/LeapLabTHU/FLatten-Transformer.
- Abstract(参考訳): 視覚タスクにTransformerモデルを適用する場合、自己注意の二次計算複雑性は永続的な課題である。
一方、線形注意は、注意深く設計されたマッピング関数を通じてソフトマックス操作を近似することにより、線形複雑性を持つより効率的な代替手段を提供する。
しかし、現在の線形注意アプローチは、著しい性能低下またはマッピング関数から追加の計算オーバーヘッドをもたらすかのどちらかである。
本稿では,高効率と表現性の両方を実現するために,新しいFocusted Linear Attentionモジュールを提案する。
具体的には, フォーカス能力と特徴の多様性という2つの視点から, 線形注意力の低下に寄与する要因を最初に分析した。
これらの制限を克服するために,計算複雑性を低く保ちながら自己注意の表現性を高めるため,単純で効果的なマッピング機能と効率的なランク復元モジュールを導入する。
広範な実験により,様々な高度な視覚トランスフォーマーに適用可能なリニアアテンションモジュールが,複数のベンチマークで一貫した性能向上を実現していることが示された。
コードはhttps://github.com/LeapLabTHU/FLatten-Transformerで入手できる。
関連論文リスト
- FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Slide-Transformer: Hierarchical Vision Transformer with Local
Self-Attention [34.26177289099421]
視覚変換器(ViT)の最近の進歩において、自己注意機構が重要な要素となっている。
本稿では,高効率,柔軟性,一般化性を実現するために共通畳み込み演算を利用する新しいローカルアテンションモジュールを提案する。
我々のモジュールは、効率的かつ柔軟な方法で局所的な注意パラダイムを実現する。
論文 参考訳(メタデータ) (2023-04-09T13:37:59Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - ViTALiTy: Unifying Low-rank and Sparse Approximation for Vision
Transformer Acceleration with a Linear Taylor Attention [23.874485033096917]
Vision Transformer (ViT)は、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワークの競合代替として登場した。
そこで本研究では,VitaliTy という,VT の推論効率向上のためのハードウェア設計フレームワークを提案する。
ViTALiTyは、ViTにおける注目の低ランクとスパースの両方のコンポーネントを統合する。
論文 参考訳(メタデータ) (2022-11-09T18:58:21Z) - The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文 参考訳(メタデータ) (2022-10-19T07:15:35Z) - Linear Video Transformer with Feature Fixation [34.324346469406926]
ビジョントランスフォーマーは、ソフトマックスのアテンション機構によって引き起こされる二次的な複雑さに悩まされながら、ビデオ分類において印象的なパフォーマンスを達成した。
本稿では、線形注意を計算する前に、クエリとキーの特徴的重要性を再重み付けする機能固定モジュールを提案する。
我々は,3つの人気ビデオ分類ベンチマークを用いて,線形ビデオ変換器の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T02:20:50Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。