Fugu-MT 論文翻訳(概要): FFT-based Dynamic Token Mixer for Vision

論文の概要: FFT-based Dynamic Token Mixer for Vision

arxiv url: http://arxiv.org/abs/2303.03932v1
Date: Tue, 7 Mar 2023 14:38:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-08 15:03:37.044754
Title: FFT-based Dynamic Token Mixer for Vision
Title（参考訳）: FFTを用いた視覚用ダイナミックトケミキサー
Authors: Yuki Tatsunami, Masato Taki
Abstract要約: 本稿では,動的フィルタとDFFormer,CDFFormerと呼ばれる新しいトークンミキサーを提案する。 CDFFormerの精度は85.0%で、畳み込みとMHSAを備えたハイブリッドアーキテクチャに近い。以上の結果から,動的フィルタはトークン・ミキサーの選択肢の一つであり,本質的な検討が必要であることが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-head-self-attention (MHSA)-equipped models have achieved notable performance in computer vision. Their computational complexity is proportional to quadratic numbers of pixels in input feature maps, resulting in slow processing, especially when dealing with high-resolution images. New types of token-mixer are proposed as an alternative to MHSA to circumvent this problem: an FFT-based token-mixer, similar to MHSA in global operation but with lower computational complexity. However, despite its attractive properties, the FFT-based token-mixer has not been carefully examined in terms of its compatibility with the rapidly evolving MetaFormer architecture. Here, we propose a novel token-mixer called dynamic filter and DFFormer and CDFFormer, image recognition models using dynamic filters to close the gaps above. CDFFormer achieved a Top-1 accuracy of 85.0%, close to the hybrid architecture with convolution and MHSA. Other wide-ranging experiments and analysis, including object detection and semantic segmentation, demonstrate that they are competitive with state-of-the-art architectures; Their throughput and memory efficiency when dealing with high-resolution image recognition is convolution and MHSA, not much different from ConvFormer, and far superior to CAFormer. Our results indicate that the dynamic filter is one of the token-mixer options that should be seriously considered. The code is available at https://github.com/okojoalg/dfformer
Abstract（参考訳）: MHSA(Multi-head-self-attention)搭載モデルはコンピュータビジョンにおいて顕著な性能を発揮している。その計算の複雑さは入力特徴マップの2乗数に比例し、特に高解像度画像を扱う場合には処理が遅くなる。新たな種類のトークンミキサーが、この問題を回避するためにMHSAに代わるものとして提案されている: FFTベースのトークンミキサー。しかし、その魅力的な特性にもかかわらず、fftベースのトークンミキサーは急速に進化するメタフォーマーアーキテクチャとの互換性に関して慎重に検討されていない。本稿では,ダイナミックフィルタとdfformerとcdfformerと呼ばれる新しいトークン混合器を提案する。 CDFFormerの精度は85.0%で、畳み込みとMHSAを備えたハイブリッドアーキテクチャに近い。オブジェクト検出やセマンティクスセグメンテーションなど、他の広範囲にわたる実験や分析では、最先端のアーキテクチャと競合していることが示されている。高分解能の画像認識を扱う際のスループットとメモリ効率は畳み込みとmhsaであり、convformerとは大きく異なり、caformerよりもはるかに優れている。以上の結果から,動的フィルタは,真剣に検討すべきトークン・ミキサーの選択肢の一つであることが示唆された。コードはhttps://github.com/okojoalg/dfformerで入手できる。

関連論文リスト

VoxelFormer: Parameter-Efficient Multi-Subject Visual Decoding from fMRI [4.3296865400748]
VoxelFormerは、fMRIからの視覚的デコードのためのマルチオブジェクトトレーニングを可能にする軽量トランスフォーマーアーキテクチャである。効率的なボクセル圧縮のためのToken Merging Transformer(ToMer)と、CLIPイメージの埋め込みスペースに整合した固定サイズのニューラル表現を生成するクエリ駆動のQ-Formerを統合している。
論文参考訳（メタデータ） (2025-09-10T21:20:17Z)
High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。本手法は,最先端モデルのFLOPを24～43%削減する。
論文参考訳（メタデータ） (2025-05-11T13:18:03Z)
Mixing Histopathology Prototypes into Robust Slide-Level Representations for Cancer Subtyping [19.577541771516124]
計算病理学の手法による全スライディング画像解析は、しばしば、スライドレベルラベルのみが利用可能なテッセル化ギガピクセル画像の処理に依存している。複数のインスタンス学習手法やトランスフォーマーモデルを適用することは、各イメージとして計算コストが高く、すべてのインスタンスを同時に処理する必要がある。 TheMixerは、特に大規模データセットにおいて、一般的なビジョントランスフォーマーの未探索の代替モデルである。
論文参考訳（メタデータ） (2023-10-19T14:15:20Z)
Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。 5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-08-24T03:50:37Z)
Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文参考訳（メタデータ） (2023-07-26T07:42:28Z)
T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文参考訳（メタデータ） (2023-05-12T04:10:42Z)
Spatially-Adaptive Feature Modulation for Efficient Image Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。提案法は最先端のSR法よりも3倍程度小さい。
論文参考訳（メタデータ） (2023-02-27T14:19:31Z)
Efficient Context Integration through Factorized Pyramidal Learning for Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。 FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文参考訳（メタデータ） (2023-02-23T05:34:51Z)
UHD Image Deblurring via Multi-scale Cubic-Mixer [12.402054374952485]
トランスフォーマーベースのアルゴリズムは、画像劣化の領域に飛び散っている。これらのアルゴリズムはトークン間の長距離依存関係をモデル化するためにCNNステムによる自己保持機構に依存する。
論文参考訳（メタデータ） (2022-06-08T05:04:43Z)
WaveMix: Resource-efficient Token Mixing for Images [2.7188347260210466]
本稿では,空間トークン混合のためのマルチスケール2次元離散ウェーブレット変換(DWT)を用いた代替ニューラルネットワークとしてWaveMixを提案する。 WaveMix は EMNIST Byclass と EMNIST Balanced データセットで State-of-the-art (SOTA) を達成している。
論文参考訳（メタデータ） (2022-03-07T20:15:17Z)
Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。 AFNOは、演算子学習の原則的基礎に基づいている。 65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文参考訳（メタデータ） (2021-11-24T05:44:31Z)
Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文参考訳（メタデータ） (2021-07-01T17:58:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。