論文の概要: FFT-based Dynamic Token Mixer for Vision
- arxiv url: http://arxiv.org/abs/2303.03932v2
- Date: Sun, 17 Dec 2023 16:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 21:05:16.318711
- Title: FFT-based Dynamic Token Mixer for Vision
- Title(参考訳): FFTを用いた視覚用ダイナミックトケミキサー
- Authors: Yuki Tatsunami, Masato Taki
- Abstract要約: 本稿では,動的フィルタと新しい画像認識モデルDFFormerとCDFFormerを提案する。
我々の結果は、Dynamic Filterが、真剣に検討すべきトークン-ミキサーオプションの1つであることを示唆している。
- 参考スコア(独自算出の注目度): 5.439020425819001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-head-self-attention (MHSA)-equipped models have achieved notable
performance in computer vision. Their computational complexity is proportional
to quadratic numbers of pixels in input feature maps, resulting in slow
processing, especially when dealing with high-resolution images. New types of
token-mixer are proposed as an alternative to MHSA to circumvent this problem:
an FFT-based token-mixer involves global operations similar to MHSA but with
lower computational complexity. However, despite its attractive properties, the
FFT-based token-mixer has not been carefully examined in terms of its
compatibility with the rapidly evolving MetaFormer architecture. Here, we
propose a novel token-mixer called Dynamic Filter and novel image recognition
models, DFFormer and CDFFormer, to close the gaps above. The results of image
classification and downstream tasks, analysis, and visualization show that our
models are helpful. Notably, their throughput and memory efficiency when
dealing with high-resolution image recognition is remarkable. Our results
indicate that Dynamic Filter is one of the token-mixer options that should be
seriously considered. The code is available at
https://github.com/okojoalg/dfformer
- Abstract(参考訳): MHSA(Multi-head-self-attention)搭載モデルはコンピュータビジョンにおいて顕著な性能を発揮している。
その計算の複雑さは入力特徴マップの2乗数に比例し、特に高解像度画像を扱う場合には処理が遅くなる。
FFTベースのトークンミキサーは、MHSAに似ているが計算複雑性の低い大域的な操作を含む。
しかし、その魅力的な特性にもかかわらず、fftベースのトークンミキサーは急速に進化するメタフォーマーアーキテクチャとの互換性に関して慎重に検討されていない。
本稿では,新しいトークンミキサーであるDynamic Filterと,新しい画像認識モデルであるDFFormerとCDFFormerを提案し,そのギャップを埋める。
画像分類と下流タスク,分析,可視化の結果から,モデルが有効であることが示された。
特に,高解像度画像認識におけるスループットとメモリ効率は顕著である。
我々の結果は、Dynamic Filterが、真剣に検討すべきトークン-ミキサーオプションの1つであることを示唆している。
コードはhttps://github.com/okojoalg/dfformerで入手できる。
関連論文リスト
- Mixing Histopathology Prototypes into Robust Slide-Level Representations
for Cancer Subtyping [19.577541771516124]
計算病理学の手法による全スライディング画像解析は、しばしば、スライドレベルラベルのみが利用可能なテッセル化ギガピクセル画像の処理に依存している。
複数のインスタンス学習手法やトランスフォーマーモデルを適用することは、各イメージとして計算コストが高く、すべてのインスタンスを同時に処理する必要がある。
TheMixerは、特に大規模データセットにおいて、一般的なビジョントランスフォーマーの未探索の代替モデルである。
論文 参考訳(メタデータ) (2023-10-19T14:15:20Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - UHD Image Deblurring via Multi-scale Cubic-Mixer [12.402054374952485]
トランスフォーマーベースのアルゴリズムは、画像劣化の領域に飛び散っている。
これらのアルゴリズムはトークン間の長距離依存関係をモデル化するためにCNNステムによる自己保持機構に依存する。
論文 参考訳(メタデータ) (2022-06-08T05:04:43Z) - WaveMix: Resource-efficient Token Mixing for Images [2.7188347260210466]
本稿では,空間トークン混合のためのマルチスケール2次元離散ウェーブレット変換(DWT)を用いた代替ニューラルネットワークとしてWaveMixを提案する。
WaveMix は EMNIST Byclass と EMNIST Balanced データセットで State-of-the-art (SOTA) を達成している。
論文 参考訳(メタデータ) (2022-03-07T20:15:17Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。