論文の概要: AFIDAF: Alternating Fourier and Image Domain Adaptive Filters as an Efficient Alternative to Attention in ViTs
- arxiv url: http://arxiv.org/abs/2407.12217v2
- Date: Wed, 25 Sep 2024 22:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 20:48:00.739813
- Title: AFIDAF: Alternating Fourier and Image Domain Adaptive Filters as an Efficient Alternative to Attention in ViTs
- Title(参考訳): AFIDAF: ViT におけるアテンションの効率的な代替手段としてのフーリエと画像ドメイン適応フィルタの代替
- Authors: Yunling Zheng, Zeyi Xu, Fanghui Xue, Biao Yang, Jiancheng Lyu, Shuai Zhang, Yingyong Qi, Jack Xin,
- Abstract要約: 本稿では,特徴抽出のためのFourierと画像領域フィルタリングを交互に行う手法を提案する。
軽量モデル間の性能はImageNet-1K分類の最先端レベルに達する。
我々のアプローチは、視覚変換器(ViT)を圧縮するための新しいツールとしても機能する。
- 参考スコア(独自算出の注目度): 7.373360108988774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose and demonstrate an alternating Fourier and image domain filtering approach for feature extraction as an efficient alternative to build a vision backbone without using the computationally intensive attention. The performance among the lightweight models reaches the state-of-the-art level on ImageNet-1K classification, and improves downstream tasks on object detection and segmentation consistently as well. Our approach also serves as a new tool to compress vision transformers (ViTs).
- Abstract(参考訳): 本稿では,視覚バックボーン構築の代替として,特徴抽出のためのFourier と Image Domain Filtering の交互なアプローチを提案する。
軽量モデル間の性能は、ImageNet-1K分類の最先端レベルに達し、オブジェクト検出やセグメンテーションの下流タスクも一貫して改善する。
我々のアプローチは、視覚変換器(ViT)を圧縮するための新しいツールとしても機能する。
関連論文リスト
- ReViT: Enhancing Vision Transformers Feature Diversity with Attention Residual Connections [8.372189962601077]
視覚変換器(ViT)自己保持機構は、深い層に特徴的崩壊を特徴とする。
本稿では,ViTに基づくアーキテクチャを改良するための新たな注意学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T14:44:10Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Learning Image Deraining Transformer Network with Dynamic Dual
Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。
具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。
また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文 参考訳(メタデータ) (2023-08-15T13:59:47Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Transformer Tracking with Cyclic Shifting Window Attention [17.73494432795304]
視覚オブジェクト追跡のためのマルチスケール巡回シフトウィンドウアテンションを備えた新しいトランスフォーマーアーキテクチャを提案する。
本稿では,本手法の優れた性能を示すとともに,新しい最先端記録を5つの挑戦的データセットに設定する。
論文 参考訳(メタデータ) (2022-05-08T07:46:34Z) - Adaptive Transformers for Robust Few-shot Cross-domain Face
Anti-spoofing [71.06718651013965]
我々は、堅牢なクロスドメイン顔アンチスプーフィングのための適応型視覚変換器(ViT)を提案する。
私たちはVTをバックボーンとして採用し、その強度を利用して画素間の長距離依存を考慮します。
いくつかのベンチマークデータセットの実験では、提案されたモデルが堅牢かつ競合的なパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2022-03-23T03:37:44Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Iterative Filter Adaptive Network for Single Image Defocus Deblurring [14.631102120866283]
単一画像のデフォーカスを損なう新しいエンドツーエンドの学習手法を提案する。
提案手法は,空間的に異なるぼかしを扱うために特別に設計された,新しいIterative Filter Adaptive Network (IFAN) を備える。
提案手法は,実世界の画像に対して,定量的かつ質的に,最先端の性能を達成することを実証する。
論文 参考訳(メタデータ) (2021-08-31T04:27:07Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。