論文の概要: WaveMix-Lite: A Resource-efficient Neural Network for Image Analysis
- arxiv url: http://arxiv.org/abs/2205.14375v2
- Date: Wed, 1 Jun 2022 17:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 21:03:01.757329
- Title: WaveMix-Lite: A Resource-efficient Neural Network for Image Analysis
- Title(参考訳): WaveMix-Lite:画像解析のための資源効率の高いニューラルネットワーク
- Authors: Pranav Jeevan, Kavitha Viswanathan, Amit Sethi
- Abstract要約: 新しいアーキテクチャであるWaveMix-Liteは、現代のトランスフォーマーや畳み込みニューラルネットワーク(CNN)と同等に一般化できる
WaveMix-Liteは多用途でスケーラブルなアーキテクチャフレームワークで、複数のビジョンタスクに使用できます。
5つのEMNISTデータセットで最先端の精度を達成し、ImageNet-1K(64$times$64画像)でCNNとトランスフォーマーを上回り、Cityscapes検証セットで75.32 %のmIoUを達成する。
- 参考スコア(独自算出の注目度): 2.3014300466616078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gains in the ability to generalize on image analysis tasks for neural
networks have come at the cost of increased number of parameters and layers,
dataset sizes, training and test computations, and GPU RAM. We introduce a new
architecture -- WaveMix-Lite -- that can generalize on par with contemporary
transformers and convolutional neural networks (CNNs) while needing fewer
resources. WaveMix-Lite uses 2D-discrete wavelet transform to efficiently mix
spatial information from pixels. WaveMix-Lite seems to be a versatile and
scalable architectural framework that can be used for multiple vision tasks,
such as image classification and semantic segmentation, without requiring
significant architectural changes, unlike transformers and CNNs. It is able to
meet or exceed several accuracy benchmarks while training on a single GPU. For
instance, it achieves state-of-the-art accuracy on five EMNIST datasets,
outperforms CNNs and transformers in ImageNet-1K (64$\times$64 images), and
achieves an mIoU of 75.32 % on Cityscapes validation set, while using less than
one-fifth the number parameters and half the GPU RAM of comparable CNNs or
transformers. Our experiments show that while the convolutional elements of
neural architectures exploit the shift-invariance property of images, new types
of layers (e.g., wavelet transform) can exploit additional properties of
images, such as scale-invariance and finite spatial extents of objects.
- Abstract(参考訳): ニューラルネットワークの画像解析タスクを一般化する能力の高まりは、パラメータやレイヤの数の増加、データセットのサイズ、トレーニングとテストの計算、gpu ramといったコストがかかっている。
我々は、リソースを少なくしながら、同時代のトランスフォーマーや畳み込みニューラルネットワーク(CNN)と同等に一般化できる新しいアーキテクチャ、WaveMix-Liteを導入する。
WaveMix-Liteは2次元離散ウェーブレット変換を用いて画素の空間情報を効率的に混合する。
wavemix-liteは多彩でスケーラブルなアーキテクチャフレームワークで、画像分類やセマンティクスセグメンテーションなど、トランスフォーマーやcnnとは異なり、アーキテクチャの変更を必要とせずに、複数のビジョンタスクに使用できる。
単一のgpuでトレーニングしながら、複数の精度ベンチマークを満たしたり、超えたりすることができる。
例えば、5つのemnistデータセットで最先端の精度を達成し、imagenet-1k(64$\times$64イメージ)でcnnとtransformersを上回り、cityscapes validation setで75.32 %のmiouを達成し、同等のcnnやtransformersのgpuramの5分の1以下を使用した。
実験の結果,ニューラルアーキテクチャの畳み込み要素は画像のシフト不変性を利用するが,新しいタイプの層(ウェーブレット変換など)は物体のスケール不変性や有限空間範囲といった画像のさらなる特性を利用することができることがわかった。
関連論文リスト
- DiffiT: Diffusion Vision Transformers for Image Generation [94.50195596375316]
Diffusion Vision Transformers (DiffiT) はU字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャである。
DiffiTは、高忠実度画像を生成するのに驚くほど効果的です。
潜在領域では、DiffiTはImageNet-256データセットで1.73の新しいSOTA FIDスコアを達成している。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - WaveMixSR: A Resource-efficient Neural Network for Image
Super-resolution [2.0477182014909205]
本稿では、WaveMixアーキテクチャに基づく画像超解像のための新しいニューラルネットワーク、WaveMixSRを提案する。
WaveMixSRは、すべてのデータセットで競合性能を達成し、複数の超解像度タスクでBSD100データセットで最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2023-07-01T21:25:03Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - WaveMix: Resource-efficient Token Mixing for Images [2.7188347260210466]
本稿では,空間トークン混合のためのマルチスケール2次元離散ウェーブレット変換(DWT)を用いた代替ニューラルネットワークとしてWaveMixを提案する。
WaveMix は EMNIST Byclass と EMNIST Balanced データセットで State-of-the-art (SOTA) を達成している。
論文 参考訳(メタデータ) (2022-03-07T20:15:17Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - ES-ImageNet: A Million Event-Stream Classification Dataset for Spiking
Neural Networks [12.136368750042688]
我々は,Omnidirectional Discrete Gradient (ODG) と呼ばれる高速かつ効率的なアルゴリズムを提案し,一般的なコンピュータビジョンデータセットであるILSVRC2012をイベントストリーム(ES)バージョンに変換する。
このようにして、ES-ImageNetは、現在、他のニューロモーフィック分類データセットの数十倍の大きさで、ソフトウェアによって完全に生成される。
論文 参考訳(メタデータ) (2021-10-23T12:56:23Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - ACORN: Adaptive Coordinate Networks for Neural Scene Representation [40.04760307540698]
現在の神経表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度で画像を正確に表現できません。
トレーニングや推論中にリソースを適応的に割り当てる新しいハイブリッド暗黙的ネットワークアーキテクチャとトレーニング戦略を紹介します。
ギガピクセル画像を40dB近いピーク信号対雑音比に収まる最初の実験を実証します。
論文 参考訳(メタデータ) (2021-05-06T16:21:38Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。