論文の概要: Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads
- arxiv url: http://arxiv.org/abs/2406.19391v3
- Date: Fri, 20 Dec 2024 02:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:20:35.653158
- Title: Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads
- Title(参考訳): 意図的視覚表現学習 : 異なる意図の頭上での学習
- Authors: Ali Khaleghi Rahimian, Manish Kumar Govind, Subhajit Maity, Dominick Reilly, Christian Kümmerle, Srijan Das, Aritra Dutta,
- Abstract要約: トランスフォーマーアーキテクチャにおけるMHSAの代替として,Fibottentionと呼ばれる新しいマルチヘッド自己アテンション(MHSA)モデルを提案する。
フィボテンションはデータ効率が高く、標準的なMHSAよりも大量のトークンを処理するのに適している。
拡張されたフィボナッチ配列に基づいて、構造化されたスパークアテンションを採用しており、ユニークなことに、アテンションヘッドによって異なる。
- 参考スコア(独自算出の注目度): 10.169639612525643
- License:
- Abstract: Transformer architectures such as Vision Transformers (ViT) have proven effective for solving visual perception tasks. However, they suffer from two major limitations; first, the quadratic complexity of self-attention limits the number of tokens that can be processed, and second, Transformers often require large amounts of training data to attain state-of-the-art performance. In this paper, we propose a new multi-head self-attention (MHSA) variant named Fibottention, which can replace MHSA in Transformer architectures. Fibottention is data-efficient and computationally more suitable for processing large numbers of tokens than the standard MHSA. It employs structured sparse attention based on dilated Fibonacci sequences, which, uniquely, differ across attention heads, resulting in inception-like diverse features across heads. The spacing of the Fibonacci sequences follows the Wythoff array, which minimizes the redundancy of token interactions aggregated across different attention heads, while still capturing sufficient complementary information through token pair interactions. These sparse attention patterns are unique among the existing sparse attention and lead to an $O(N \log N)$ complexity, where $N$ is the number of tokens. Leveraging only 2-6% of the elements in the self-attention heads, Fibottention embedded into popular, state-of-the-art Transformer architectures can achieve significantly improved predictive performance for domains with limited data such as image classification, video understanding, and robot learning tasks, and render reduced computational complexity. We further validated the improved diversity of feature representations resulting from different self-attention heads, and our model design against other sparse attention mechanisms.
- Abstract(参考訳): ViT(Vision Transformers)のようなトランスフォーマーアーキテクチャは、視覚知覚タスクの解決に有効であることが証明されている。
しかし、これらには2つの大きな制限がある: 第一に、自己注意の二次的な複雑さは、処理可能なトークンの数を制限し、第二に、トランスフォーマーはしばしば最先端のパフォーマンスを達成するために大量のトレーニングデータを必要とする。
本稿では、トランスフォーマーアーキテクチャにおけるMHSAを代替する、Fibottention(MHSA)と呼ばれる新しいマルチヘッド自己アテンション(MHSA)モデルを提案する。
フィボテンションはデータ効率が高く、標準的なMHSAよりも大量のトークンを処理するのに適している。
これは拡張フィボナッチ配列に基づく構造的スパークアテンションを採用しており、ユニークなことに、アテンションヘッドによって異なるため、インセプションのような多様な特徴が頭全体にもたらされる。
フィボナッチ列の間隔は、異なる注目ヘッドにまたがって集約されたトークン相互作用の冗長性を最小化しつつ、トークン対の相互作用を通じて十分な補完情報を収集するワイトフ配列に従っている。
これらのスパースアテンションパターンは、既存のスパースアテンションの中でユニークなものであり、$O(N \log N)$ complexity、ここで$N$はトークンの数である。
自己アテンションヘッドの要素の2-6%のみを活用することで、人気の高い最先端のTransformerアーキテクチャに組み込まれたFibottentionは、画像分類、ビデオ理解、ロボット学習タスクといった限られたデータを持つ領域の予測性能を大幅に改善し、複雑性を低減できる。
さらに、異なる自己注意頭から生じる特徴表現の多様性の向上と、他の疎密な注意機構に対するモデル設計を検証した。
関連論文リスト
- Optimizing Vision Transformers with Data-Free Knowledge Transfer [8.323741354066474]
視覚変換器(ViT)は、長距離依存を捕捉する能力に優れており、様々なコンピュータビジョンタスクに優れていた。
本稿では,KD(Knowledge Distillation)を用いた大規模ViTモデルの圧縮を提案する。
論文 参考訳(メタデータ) (2024-08-12T07:03:35Z) - You Only Need Less Attention at Each Stage in Vision Transformers [19.660385306028047]
ViT(Vision Transformer)は、自己認識モジュールを通じて画像のグローバルな情報をキャプチャする。
本稿では,各段階の注意操作のみを演算するLose-Attention Vision Transformer (LaViT)を提案する。
我々のアーキテクチャは、分類、検出、セグメンテーションを含む様々な視覚タスクにおいて、例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-01T12:49:16Z) - Sharing Key Semantics in Transformer Makes Efficient Image Restoration [148.22790334216117]
視覚変換器(ViT)の基盤となる自己注意機構は、意味的に無関係なオブジェクトや領域であっても、すべてのグローバルな手がかりを包含する傾向がある。
本稿では,Transformer for IR(すなわちSemanIR)を通じて重要なセマンティクスを共有することで,画像復元の性能を向上させることを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:45:34Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Lightweight Structure-Aware Attention for Visual Understanding [16.860625620412943]
視覚変換器(ViT)は、自己注意演算子を用いた視覚表現学習において支配的なパラダイムとなっている。
本稿では,ログ線形複雑度の高い表現能力を有する軽量構造認識型注意演算子(LiSA)を提案する。
実験およびアブレーション実験により,提案した演算子に基づくViTsが,自己注意や他の既存演算子より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-29T15:20:14Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。