論文の概要: Improving Vision Transformers by Overlapping Heads in Multi-Head Self-Attention
- arxiv url: http://arxiv.org/abs/2410.14874v1
- Date: Fri, 18 Oct 2024 21:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:02.712013
- Title: Improving Vision Transformers by Overlapping Heads in Multi-Head Self-Attention
- Title(参考訳): 多頭部自己注意における重なり合う頭部による視覚変換器の改善
- Authors: Tianxiao Zhang, Bo Luo, Guanghui Wang,
- Abstract要約: MHSA(Multi-Head Self-Attention)は、アテンション機構を独立して適用することにより、各ヘッドが異なる表現を学習できるようにする。
マルチオーバーラップ型自己認識(MOHSA)を導入し、クエリー、キー、値の2つの頭と頭が重なり合うようにする。
提案手法の最適性能を十分に検討するために,重なり合う比の様々なパラダイムを提案する。
- 参考スコア(独自算出の注目度): 9.397365743026294
- License:
- Abstract: Vision Transformers have made remarkable progress in recent years, achieving state-of-the-art performance in most vision tasks. A key component of this success is due to the introduction of the Multi-Head Self-Attention (MHSA) module, which enables each head to learn different representations by applying the attention mechanism independently. In this paper, we empirically demonstrate that Vision Transformers can be further enhanced by overlapping the heads in MHSA. We introduce Multi-Overlapped-Head Self-Attention (MOHSA), where heads are overlapped with their two adjacent heads for queries, keys, and values, while zero-padding is employed for the first and last heads, which have only one neighboring head. Various paradigms for overlapping ratios are proposed to fully investigate the optimal performance of our approach. The proposed approach is evaluated using five Transformer models on four benchmark datasets and yields a significant performance boost. The source code will be made publicly available upon publication.
- Abstract(参考訳): 視覚変換器は近年顕著な進歩を遂げており、ほとんどの視覚タスクにおいて最先端のパフォーマンスを実現している。
この成功の重要な要素はMHSA(Multi-Head Self-Attention)モジュールの導入によるものである。
本稿では,MHSAの頭部を重畳することで,視覚変換器をさらに拡張できることを実証的に示す。
本稿では,2つの頭部に隣接するクエリ,キー,値が重なり合うマルチオーバラップヘッド自己認識(MOHSA)と,隣接する頭部が1つしか持たない第1および第2の頭部にゼロパディングが使用される。
提案手法の最適性能を十分に検討するために,重なり合う比の様々なパラダイムを提案する。
提案手法は,4つのベンチマークデータセット上で5つのTransformerモデルを用いて評価し,大幅な性能向上をもたらす。
ソースコードは公開時に公開される。
関連論文リスト
- Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。
我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。
このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文 参考訳(メタデータ) (2024-05-30T11:11:54Z) - Rethinking Low-Rank Adaptation in Vision: Exploring Head-Level Responsiveness across Diverse Tasks [6.068296063531189]
低ランク適応(LoRA)は、事前訓練された視覚変換器(ViT)の適応パラダイムをシフトさせた。
低ランク適応のためのヘッドレベル応答性チューニング(Heart-LoRA)を提案する。
論文 参考訳(メタデータ) (2024-04-13T04:01:35Z) - ViTGaze: Gaze Following with Interaction Features in Vision Transformers [42.08842391756614]
本稿では,新しい単一モダリティ・ギャラクシー・フレームワークであるViTGazeを紹介する。
従来の方法とは対照的に、ViTGazeは、主に強力なエンコーダをベースとした、まったく新しい視点のフレームワークを作成する。
本手法は,すべての単一モダリティ手法において,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2024-03-19T14:45:17Z) - A Manifold Representation of the Key in Vision Transformers [8.938418994111716]
本稿では、キーをクエリと値から切り離し、キーの多様体表現を採用するという概念について検討する。
実験の結果,鍵を多様体構造で切り離して付与することで,モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-01T12:01:43Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - An empirical evaluation of attention-based multi-head models for
improved turbofan engine remaining useful life prediction [9.282239595143787]
シングルユニット(ヘッド)は、多変量時系列信号に基づいて訓練されたディープラーニングアーキテクチャにおける従来の入力特徴抽出器である。
この研究は、従来のシングルヘッド深層学習モデルを、コンテキスト固有のヘッドを開発することにより、より堅牢な形式に拡張する。
論文 参考訳(メタデータ) (2021-09-04T01:13:47Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。