論文の概要: Global Filter Networks for Image Classification
- arxiv url: http://arxiv.org/abs/2107.00645v1
- Date: Thu, 1 Jul 2021 17:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 14:03:28.565538
- Title: Global Filter Networks for Image Classification
- Title(参考訳): 画像分類のためのグローバルフィルタネットワーク
- Authors: Yongming Rao, Wenliang Zhao, Zheng Zhu, Jiwen Lu, Jie Zhou
- Abstract要約: 本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
- 参考スコア(独自算出の注目度): 90.81352483076323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in self-attention and pure multi-layer perceptrons (MLP)
models for vision have shown great potential in achieving promising performance
with fewer inductive biases. These models are generally based on learning
interaction among spatial locations from raw data. The complexity of
self-attention and MLP grows quadratically as the image size increases, which
makes these models hard to scale up when high-resolution features are required.
In this paper, we present the Global Filter Network (GFNet), a conceptually
simple yet computationally efficient architecture, that learns long-term
spatial dependencies in the frequency domain with log-linear complexity. Our
architecture replaces the self-attention layer in vision transformers with
three key operations: a 2D discrete Fourier transform, an element-wise
multiplication between frequency-domain features and learnable global filters,
and a 2D inverse Fourier transform. We exhibit favorable accuracy/complexity
trade-offs of our models on both ImageNet and downstream tasks. Our results
demonstrate that GFNet can be a very competitive alternative to
transformer-style models and CNNs in efficiency, generalization ability and
robustness. Code is available at https://github.com/raoyongming/GFNet
- Abstract(参考訳): 近年の視覚に対する自己注意モデルと純粋多層パーセプトロンモデル(MLP)の進歩は、帰納バイアスの少ない有望な性能を達成する大きな可能性を示している。
これらのモデルは一般に、生データから空間的位置間の学習相互作用に基づいている。
画像サイズが大きくなるにつれて、自己注意とMLPの複雑さは2次的に増大し、高解像度の特徴を必要とする場合、これらのモデルはスケールアップが困難になる。
本稿では,ログ線形複雑性を伴う周波数領域の長期的空間依存性を学習する,概念的に単純かつ計算効率の良いアーキテクチャであるglobal filter network(gfnet)を提案する。
我々のアーキテクチャは、視覚変換器の自己注意層を2次元離散フーリエ変換、2次元逆フーリエ変換、周波数領域特徴と学習可能な大域フィルタの要素ワイド乗算、および2次元逆フーリエ変換で置き換える。
ImageNetと下流の両方のタスクで、モデルの良好な精度/複雑さのトレードオフを示します。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
コードはhttps://github.com/raoyongming/GFNetで入手できる。
関連論文リスト
- HartleyMHA: Self-Attention in Frequency Domain for Resolution-Robust and
Parameter-Efficient 3D Image Segmentation [4.48473804240016]
本稿では,効率的な自己注意による画像解像度のトレーニングに頑健なHartleyMHAモデルを提案する。
我々は、モデルサイズを桁違いに小さくするために、共有パラメータを持つハートレー変換を用いてFNOを変更する。
BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。
論文 参考訳(メタデータ) (2023-10-05T18:44:41Z) - As large as it gets: Learning infinitely large Filters via Neural
Implicit Functions in the Fourier Domain [11.72025865314187]
我々は、視覚アプリケーションにおけるコンテキスト認識ニューラルネットワークにおいて、受容野が本当にどれほど大きい必要があるかを調査することを目的としている。
本稿では,ニューラルネットワークの暗黙関数としてフィルタ重みの空間的・周波数的表現を学習することを提案する。
結果として生じるニューラル暗黙周波数CNNは、大規模な画像分類ベンチマークの最先端と同等の結果を得る最初のモデルである。
論文 参考訳(メタデータ) (2023-07-19T14:21:11Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Multiscale Attention via Wavelet Neural Operators for Vision
Transformers [0.0]
トランスフォーマーはコンピュータビジョンにおいて広く成功しており、その核心には自己認識(SA)機構がある。
標準SA機構はシークエンスの長さと二次的な複雑さを持ち、高解像度のビジョンに現れる長いシークエンスにその有用性を妨げている。
本稿では,シーケンスサイズが線形に複雑になるウェーブレットニューラル演算子を利用して,MWA(Multiscale Wavelet Attention)を導入する。
論文 参考訳(メタデータ) (2023-03-22T09:06:07Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - Optimizing Vision Transformers for Medical Image Segmentation and
Few-Shot Domain Adaptation [11.690799827071606]
我々はCS-Unet(Convolutional Swin-Unet)トランスフォーマーブロックを提案し、パッチ埋め込み、プロジェクション、フィードフォワードネットワーク、サンプリングおよびスキップ接続に関連する設定を最適化する。
CS-Unetはゼロからトレーニングすることができ、各機能プロセスフェーズにおける畳み込みの優位性を継承する。
実験によると、CS-Unetは事前トレーニングなしで、パラメータが少ない2つの医療用CTおよびMRIデータセットに対して、最先端の他のデータセットを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2022-10-14T19:18:52Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。