論文の概要: Wave-ViT: Unifying Wavelet and Transformers for Visual Representation
Learning
- arxiv url: http://arxiv.org/abs/2207.04978v1
- Date: Mon, 11 Jul 2022 16:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 13:29:35.604546
- Title: Wave-ViT: Unifying Wavelet and Transformers for Visual Representation
Learning
- Title(参考訳): Wave-ViT:視覚表現学習のためのウェーブレットとトランスフォーマーの統合
- Authors: Ting Yao and Yingwei Pan and Yehao Li and Chong-Wah Ngo and Tao Mei
- Abstract要約: マルチスケールビジョントランス (ViT) はコンピュータビジョンタスクの強力なバックボーンとして登場した。
本稿では,ウェーブレット変換と自己注意学習を用いて,可逆的なダウンサンプリングを定式化する新しいウェーブレットビジョン変換器(textbfWave-ViT)を提案する。
- 参考スコア(独自算出の注目度): 138.29273453811945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-scale Vision Transformer (ViT) has emerged as a powerful backbone for
computer vision tasks, while the self-attention computation in Transformer
scales quadratically w.r.t. the input patch number. Thus, existing solutions
commonly employ down-sampling operations (e.g., average pooling) over
keys/values to dramatically reduce the computational cost. In this work, we
argue that such over-aggressive down-sampling design is not invertible and
inevitably causes information dropping especially for high-frequency components
in objects (e.g., texture details). Motivated by the wavelet theory, we
construct a new Wavelet Vision Transformer (\textbf{Wave-ViT}) that formulates
the invertible down-sampling with wavelet transforms and self-attention
learning in a unified way. This proposal enables self-attention learning with
lossless down-sampling over keys/values, facilitating the pursuing of a better
efficiency-vs-accuracy trade-off. Furthermore, inverse wavelet transforms are
leveraged to strengthen self-attention outputs by aggregating local contexts
with enlarged receptive field. We validate the superiority of Wave-ViT through
extensive experiments over multiple vision tasks (e.g., image recognition,
object detection and instance segmentation). Its performances surpass
state-of-the-art ViT backbones with comparable FLOPs. Source code is available
at \url{https://github.com/YehLi/ImageNetModel}.
- Abstract(参考訳): Multi-scale Vision Transformer (ViT) はコンピュータビジョンタスクの強力なバックボーンとして登場し、Transformer の自己アテンション計算は入力パッチ番号を2乗スケールする。
したがって、既存のソリューションは一般に、計算コストを劇的に削減するために、キー/値に対するダウンサンプリング演算(例えば平均プール)を用いる。
本稿では,このような過度に攻撃的なダウンサンプリング設計は可逆的ではなく,特にオブジェクトの高周波成分(例えばテクスチャディテール)の情報を必然的に低下させるものであると主張する。
ウェーブレット理論によって動機付けられた新しいウェーブレットビジョン変換器 (\textbf{Wave-ViT}) を構築し、ウェーブレット変換と自己注意学習を統一的に行う。
この提案により、キー/値に対するロスレスダウンサンプリングによる自己着信学習が可能となり、効率-vs-accuracyトレードオフの追求が容易になる。
さらに、逆ウェーブレット変換を利用して、受信フィールドを拡大したローカルコンテキストを集約することで自己注意出力を強化する。
複数の視覚タスク(画像認識、オブジェクト検出、インスタンスセグメンテーションなど)に対する広範な実験を通じて、Wave-ViTの優位性を検証する。
性能は最先端のVTバックボーンを上回り、FLOPに匹敵する。
ソースコードは \url{https://github.com/YehLi/ImageNetModel} で入手できる。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - Spiking Wavelet Transformer [1.8712213089437697]
スパイキングニューラルネットワーク(SNN)は、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。
SNNの変換器は精度が保証されているが、高周波パターンの学習に苦労している。
本研究では、スパイク駆動方式で包括的空間周波数特徴を効果的に学習する無注意アーキテクチャであるSpking Wavelet Transformer(SWformer)を提案する。
論文 参考訳(メタデータ) (2024-03-17T08:41:48Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。