論文の概要: FFT-based Dynamic Token Mixer for Vision
- arxiv url: http://arxiv.org/abs/2303.03932v1
- Date: Tue, 7 Mar 2023 14:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 15:03:37.044754
- Title: FFT-based Dynamic Token Mixer for Vision
- Title(参考訳): FFTを用いた視覚用ダイナミックトケミキサー
- Authors: Yuki Tatsunami, Masato Taki
- Abstract要約: 本稿では,動的フィルタとDFFormer,CDFFormerと呼ばれる新しいトークンミキサーを提案する。
CDFFormerの精度は85.0%で、畳み込みとMHSAを備えたハイブリッドアーキテクチャに近い。
以上の結果から,動的フィルタはトークン・ミキサーの選択肢の一つであり,本質的な検討が必要であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-head-self-attention (MHSA)-equipped models have achieved notable
performance in computer vision. Their computational complexity is proportional
to quadratic numbers of pixels in input feature maps, resulting in slow
processing, especially when dealing with high-resolution images. New types of
token-mixer are proposed as an alternative to MHSA to circumvent this problem:
an FFT-based token-mixer, similar to MHSA in global operation but with lower
computational complexity. However, despite its attractive properties, the
FFT-based token-mixer has not been carefully examined in terms of its
compatibility with the rapidly evolving MetaFormer architecture. Here, we
propose a novel token-mixer called dynamic filter and DFFormer and CDFFormer,
image recognition models using dynamic filters to close the gaps above.
CDFFormer achieved a Top-1 accuracy of 85.0%, close to the hybrid architecture
with convolution and MHSA. Other wide-ranging experiments and analysis,
including object detection and semantic segmentation, demonstrate that they are
competitive with state-of-the-art architectures; Their throughput and memory
efficiency when dealing with high-resolution image recognition is convolution
and MHSA, not much different from ConvFormer, and far superior to CAFormer. Our
results indicate that the dynamic filter is one of the token-mixer options that
should be seriously considered. The code is available at
https://github.com/okojoalg/dfformer
- Abstract(参考訳): MHSA(Multi-head-self-attention)搭載モデルはコンピュータビジョンにおいて顕著な性能を発揮している。
その計算の複雑さは入力特徴マップの2乗数に比例し、特に高解像度画像を扱う場合には処理が遅くなる。
新たな種類のトークンミキサーが、この問題を回避するためにMHSAに代わるものとして提案されている: FFTベースのトークンミキサー。
しかし、その魅力的な特性にもかかわらず、fftベースのトークンミキサーは急速に進化するメタフォーマーアーキテクチャとの互換性に関して慎重に検討されていない。
本稿では,ダイナミックフィルタとdfformerとcdfformerと呼ばれる新しいトークン混合器を提案する。
CDFFormerの精度は85.0%で、畳み込みとMHSAを備えたハイブリッドアーキテクチャに近い。
オブジェクト検出やセマンティクスセグメンテーションなど、他の広範囲にわたる実験や分析では、最先端のアーキテクチャと競合していることが示されている。高分解能の画像認識を扱う際のスループットとメモリ効率は畳み込みとmhsaであり、convformerとは大きく異なり、caformerよりもはるかに優れている。
以上の結果から,動的フィルタは,真剣に検討すべきトークン・ミキサーの選択肢の一つであることが示唆された。
コードはhttps://github.com/okojoalg/dfformerで入手できる。
関連論文リスト
- Mixing Histopathology Prototypes into Robust Slide-Level Representations
for Cancer Subtyping [19.577541771516124]
計算病理学の手法による全スライディング画像解析は、しばしば、スライドレベルラベルのみが利用可能なテッセル化ギガピクセル画像の処理に依存している。
複数のインスタンス学習手法やトランスフォーマーモデルを適用することは、各イメージとして計算コストが高く、すべてのインスタンスを同時に処理する必要がある。
TheMixerは、特に大規模データセットにおいて、一般的なビジョントランスフォーマーの未探索の代替モデルである。
論文 参考訳(メタデータ) (2023-10-19T14:15:20Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - UHD Image Deblurring via Multi-scale Cubic-Mixer [12.402054374952485]
トランスフォーマーベースのアルゴリズムは、画像劣化の領域に飛び散っている。
これらのアルゴリズムはトークン間の長距離依存関係をモデル化するためにCNNステムによる自己保持機構に依存する。
論文 参考訳(メタデータ) (2022-06-08T05:04:43Z) - WaveMix: Resource-efficient Token Mixing for Images [2.7188347260210466]
本稿では,空間トークン混合のためのマルチスケール2次元離散ウェーブレット変換(DWT)を用いた代替ニューラルネットワークとしてWaveMixを提案する。
WaveMix は EMNIST Byclass と EMNIST Balanced データセットで State-of-the-art (SOTA) を達成している。
論文 参考訳(メタデータ) (2022-03-07T20:15:17Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。