論文の概要: Wave-ViT: Unifying Wavelet and Transformers for Visual Representation
Learning
- arxiv url: http://arxiv.org/abs/2207.04978v1
- Date: Mon, 11 Jul 2022 16:03:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 13:29:35.604546
- Title: Wave-ViT: Unifying Wavelet and Transformers for Visual Representation
Learning
- Title(参考訳): Wave-ViT:視覚表現学習のためのウェーブレットとトランスフォーマーの統合
- Authors: Ting Yao and Yingwei Pan and Yehao Li and Chong-Wah Ngo and Tao Mei
- Abstract要約: マルチスケールビジョントランス (ViT) はコンピュータビジョンタスクの強力なバックボーンとして登場した。
本稿では,ウェーブレット変換と自己注意学習を用いて,可逆的なダウンサンプリングを定式化する新しいウェーブレットビジョン変換器(textbfWave-ViT)を提案する。
- 参考スコア(独自算出の注目度): 138.29273453811945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-scale Vision Transformer (ViT) has emerged as a powerful backbone for
computer vision tasks, while the self-attention computation in Transformer
scales quadratically w.r.t. the input patch number. Thus, existing solutions
commonly employ down-sampling operations (e.g., average pooling) over
keys/values to dramatically reduce the computational cost. In this work, we
argue that such over-aggressive down-sampling design is not invertible and
inevitably causes information dropping especially for high-frequency components
in objects (e.g., texture details). Motivated by the wavelet theory, we
construct a new Wavelet Vision Transformer (\textbf{Wave-ViT}) that formulates
the invertible down-sampling with wavelet transforms and self-attention
learning in a unified way. This proposal enables self-attention learning with
lossless down-sampling over keys/values, facilitating the pursuing of a better
efficiency-vs-accuracy trade-off. Furthermore, inverse wavelet transforms are
leveraged to strengthen self-attention outputs by aggregating local contexts
with enlarged receptive field. We validate the superiority of Wave-ViT through
extensive experiments over multiple vision tasks (e.g., image recognition,
object detection and instance segmentation). Its performances surpass
state-of-the-art ViT backbones with comparable FLOPs. Source code is available
at \url{https://github.com/YehLi/ImageNetModel}.
- Abstract(参考訳): Multi-scale Vision Transformer (ViT) はコンピュータビジョンタスクの強力なバックボーンとして登場し、Transformer の自己アテンション計算は入力パッチ番号を2乗スケールする。
したがって、既存のソリューションは一般に、計算コストを劇的に削減するために、キー/値に対するダウンサンプリング演算(例えば平均プール)を用いる。
本稿では,このような過度に攻撃的なダウンサンプリング設計は可逆的ではなく,特にオブジェクトの高周波成分(例えばテクスチャディテール)の情報を必然的に低下させるものであると主張する。
ウェーブレット理論によって動機付けられた新しいウェーブレットビジョン変換器 (\textbf{Wave-ViT}) を構築し、ウェーブレット変換と自己注意学習を統一的に行う。
この提案により、キー/値に対するロスレスダウンサンプリングによる自己着信学習が可能となり、効率-vs-accuracyトレードオフの追求が容易になる。
さらに、逆ウェーブレット変換を利用して、受信フィールドを拡大したローカルコンテキストを集約することで自己注意出力を強化する。
複数の視覚タスク(画像認識、オブジェクト検出、インスタンスセグメンテーションなど)に対する広範な実験を通じて、Wave-ViTの優位性を検証する。
性能は最先端のVTバックボーンを上回り、FLOPに匹敵する。
ソースコードは \url{https://github.com/YehLi/ImageNetModel} で入手できる。
関連論文リスト
- Deformable Audio Transformer for Audio Event Detection [6.341420717393898]
本稿では,ピラミッド変換器のバックボーンを組み込んだ変形性アテンションを構築,学習可能な,音声認識のための新しい変形性オーディオトランスを提案する。
変形可能なアテンションマップは入力機能を過剰に単純化し、さらに拡張できる可能性がある。
論文 参考訳(メタデータ) (2023-12-24T18:27:22Z) - WavSpA: Wavelet Space Attention for Boosting Transformers' Long Sequence
Learning Ability [31.791279777902957]
近年の研究では、フーリエ空間における学習の注意がトランスフォーマーの長いシーケンス学習能力を向上させることが示されている。
ウェーブレット変換は、位置情報と周波数情報の両方を線形時間複雑度でキャプチャするので、よりよい選択であるべきだと我々は主張する。
学習可能なウェーブレット係数空間における注意学習を容易にするウェーブレット空間注意(WavSpA)を提案する。
論文 参考訳(メタデータ) (2022-10-05T02:37:59Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。