論文の概要: WaveMix: Resource-efficient Token Mixing for Images
- arxiv url: http://arxiv.org/abs/2203.03689v1
- Date: Mon, 7 Mar 2022 20:15:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 05:08:51.455943
- Title: WaveMix: Resource-efficient Token Mixing for Images
- Title(参考訳): WaveMix:画像のリソース効率の良いトケミキシング
- Authors: Pranav Jeevan and Amit Sethi
- Abstract要約: 本稿では,空間トークン混合のためのマルチスケール2次元離散ウェーブレット変換(DWT)を用いた代替ニューラルネットワークとしてWaveMixを提案する。
WaveMix は EMNIST Byclass と EMNIST Balanced データセットで State-of-the-art (SOTA) を達成している。
- 参考スコア(独自算出の注目度): 2.7188347260210466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although certain vision transformer (ViT) and CNN architectures generalize
well on vision tasks, it is often impractical to use them on green, edge, or
desktop computing due to their computational requirements for training and even
testing. We present WaveMix as an alternative neural architecture that uses a
multi-scale 2D discrete wavelet transform (DWT) for spatial token mixing.
Unlike ViTs, WaveMix neither unrolls the image nor requires self-attention of
quadratic complexity. Additionally, DWT introduces another inductive bias --
besides convolutional filtering -- to utilize the 2D structure of an image to
improve generalization. The multi-scale nature of the DWT also reduces the
requirement for a deeper architecture compared to the CNNs, as the latter
relies on pooling for partial spatial mixing. WaveMix models show
generalization that is competitive with ViTs, CNNs, and token mixers on several
datasets while requiring lower GPU RAM (training and testing), number of
computations, and storage. WaveMix have achieved State-of-the-art (SOTA)
results in EMNIST Byclass and EMNIST Balanced datasets.
- Abstract(参考訳): 特定の視覚変換器(ViT)とCNNアーキテクチャはビジョンタスクをうまく一般化するが、訓練やテストのための計算要求のため、グリーン、エッジ、デスクトップコンピューティングで使用することは現実的ではない。
本研究では,空間トークン混合のための多スケール2次元離散ウェーブレット変換(dwt)を用いたニューラルアーキテクチャとしてwavemixを提案する。
ViTとは異なり、WaveMixは画像をアンロールしたり、二次的な複雑さの自己注意を必要としない。
さらに、dwtは画像の2d構造を利用して一般化を改善するために、別の帰納的バイアス(畳み込みフィルタリング)を導入する。
DWTのマルチスケールの性質は、部分的な空間混合のプーリングに依存するため、CNNと比較してより深いアーキテクチャの必要性を低減させる。
WaveMixモデルは、いくつかのデータセット上でViT、CNN、トークンミキサーと競合する一般化を示し、低いGPU RAM(トレーニングとテスト)、計算数、ストレージを必要とする。
WaveMix は EMNIST Byclass と EMNIST Balanced データセットで State-of-the-art (SOTA) を達成している。
関連論文リスト
- WaveMixSR-V2: Enhancing Super-resolution with Higher Efficiency [4.093503153499691]
本稿では,従来の畳み込み層をピクセルシャッフル操作に置き換えることで,WaveMixSRアーキテクチャの拡張版を提案する。
我々の実験は、拡張モデルであるWaveMixSR-V2が、複数の超解像タスクにおいて、他のアーキテクチャよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-09-16T04:16:52Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models [89.76587063609806]
画素空間の代わりにウェーブレット空間における拡散確率モデル(DDPM)を視覚合成のために検討した。
ウェーブレット信号を明示的にモデル化することで、我々のモデルは複数のデータセット上でより高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-27T06:53:16Z) - WaveMixSR: A Resource-efficient Neural Network for Image
Super-resolution [2.0477182014909205]
本稿では、WaveMixアーキテクチャに基づく画像超解像のための新しいニューラルネットワーク、WaveMixSRを提案する。
WaveMixSRは、すべてのデータセットで競合性能を達成し、複数の超解像度タスクでBSD100データセットで最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2023-07-01T21:25:03Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - FFT-based Dynamic Token Mixer for Vision [5.439020425819001]
本稿では,動的フィルタと新しい画像認識モデルDFFormerとCDFFormerを提案する。
我々の結果は、Dynamic Filterが、真剣に検討すべきトークン-ミキサーオプションの1つであることを示唆している。
論文 参考訳(メタデータ) (2023-03-07T14:38:28Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - WaveMix: A Resource-efficient Neural Network for Image Analysis [3.4927288761640565]
WaveMixはリソース効率が高く、汎用的でスケーラブルです。
ネットワークは、最先端の畳み込みニューラルネットワークと同等またはより正確な精度を達成する。
WaveMixはCityscapesのセグメンテーションのための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2022-05-28T09:08:50Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Wavelet Integrated CNNs for Noise-Robust Image Classification [51.18193090255933]
我々は、離散ウェーブレット変換(DWT)により、最大プール、ストライド畳み込み、平均プールを置き換えることでCNNを強化する。
VGG、ResNets、DenseNetのウェーブレット統合バージョンであるWaveCNetsは、バニラバージョンよりも精度が高く、ノイズ・ロバスト性も向上している。
論文 参考訳(メタデータ) (2020-05-07T09:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。