論文の概要: SpiralMLP: A Lightweight Vision MLP Architecture
- arxiv url: http://arxiv.org/abs/2404.00648v2
- Date: Tue, 3 Sep 2024 10:20:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 03:32:18.979656
- Title: SpiralMLP: A Lightweight Vision MLP Architecture
- Title(参考訳): SpiralMLP:軽量ビジョンMLPアーキテクチャ
- Authors: Haojie Mu, Burhan Ul Tayyab, Nicholas Chua,
- Abstract要約: 本稿では,従来のToken Mixing手法の代替として,Spiral FC層を導入した新しいアーキテクチャであるSpralMLPを提案する。
本研究は, 高い性能を達成するためには, 完全な受容領域を目標にすることが不可欠ではなく, 改良されたアプローチを採用することが, より良い結果をもたらすことを明らかにした。
- 参考スコア(独自算出の注目度): 0.27309692684728615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SpiralMLP, a novel architecture that introduces a Spiral FC layer as a replacement for the conventional Token Mixing approach. Differing from several existing MLP-based models that primarily emphasize axes, our Spiral FC layer is designed as a deformable convolution layer with spiral-like offsets. We further adapt Spiral FC into two variants: Self-Spiral FC and Cross-Spiral FC, which enable both local and global feature integration seamlessly, eliminating the need for additional processing steps. To thoroughly investigate the effectiveness of the spiral-like offsets and validate our design, we conduct ablation studies and explore optimal configurations. In empirical tests, SpiralMLP reaches state-of-the-art performance, similar to Transformers, CNNs, and other MLPs, benchmarking on ImageNet-1k, COCO and ADE20K. SpiralMLP still maintains linear computational complexity O(HW) and is compatible with varying input image resolutions. Our study reveals that targeting the full receptive field is not essential for achieving high performance, instead, adopting a refined approach offers better results.
- Abstract(参考訳): 本稿では,従来のToken Mixing手法の代替として,Spiral FC層を導入した新しいアーキテクチャであるSpralMLPを提案する。
主に軸を強調する既存のMLPベースのモデルとは違い、スパイラルFC層はスパイラルのようなオフセットを持つ変形可能な畳み込み層として設計されている。
さらにSpiral FCとCross-Spiral FCの2つのバリエーションに適応し、ローカルとグローバルの両方の機能統合をシームレスに実現し、追加の処理ステップを不要にします。
スパイラル状のオフセットの有効性を徹底的に検討し,設計を検証するために,アブレーション研究を行い,最適構成を探索する。
実証テストでは、SpiralMLPはTransformers、CNN、その他のMLPと同様に最先端のパフォーマンスに達し、ImageNet-1k、COCO、ADE20Kでベンチマークを行う。
SpiralMLPは依然として線形計算複雑性O(HW)を維持しており、様々な入力画像解像度と互換性がある。
本研究は, 高い性能を達成するためには, 完全な受容領域を目標にすることが不可欠ではなく, 改良されたアプローチを採用することが, より良い結果をもたらすことを明らかにした。
関連論文リスト
- SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Dimension Mixer: Group Mixing of Input Dimensions for Efficient Function Approximation [11.072628804821083]
CNN、Transformers、Fourier-Mixersは、類似点と相違点を探す動機になりました。
これらのアーキテクチャは、一般的な次元混合の概念のレンズを通して解釈できることがわかった。
本研究では,グループワイズ,非線形,多層,学習可能な入力混合方式について検討し,それらが多くの標準的なニューラルネットワークアーキテクチャに相補的であることを明らかにする。
論文 参考訳(メタデータ) (2023-11-30T17:30:45Z) - Caterpillar: A Pure-MLP Architecture with Shifted-Pillars-Concatenation [68.24659910441736]
Shifted-Pillars-Concatenation (SPC)モジュールは、より優れたローカルモデリングパワーとパフォーマンス向上を提供する。
我々は、SMLPNetのハイブリッドモデルにおいて、畳み込み層をSPCモジュールに置き換えることで、Caterpillarと呼ばれる純粋なMLPアーキテクチャを構築します。
実験では、小さなスケールとImageNet-1kの分類ベンチマークにおいて、Caterpillarの優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-28T06:19:36Z) - AdaSfM: From Coarse Global to Fine Incremental Adaptive Structure from
Motion [48.835456049755166]
AdaSfMは粗粒度適応型SfMアプローチであり、大規模かつ挑戦的なデータセットにスケーラブルである。
当社のアプローチはまず,低コストセンサによる計測を利用して,ビューグラフの信頼性を向上させる,粗大なグローバルSfMを実現する。
本手法では,全局所再構成をグローバルSfMの座標フレームに整合させるため,しきい値適応戦略を用いる。
論文 参考訳(メタデータ) (2023-01-28T09:06:50Z) - BiMLP: Compact Binary Architectures for Vision Multi-Layer Perceptrons [37.28828605119602]
本稿では,視覚多層パーセプトロン(MLP)のためのコンパクトバイナリアーキテクチャの設計問題について検討する。
従来のバイナライズ手法では,バイナリサンプリングの容量が限られていたため,性能が低かった。
本稿では,バイナリFC層の表現能力を高めることにより,バイナリミキシングとチャネルミキシング(BiMLP)モデルの性能を向上させることを提案する。
論文 参考訳(メタデータ) (2022-12-29T02:43:41Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - Pushing the Envelope of Rotation Averaging for Visual SLAM [69.7375052440794]
視覚SLAMシステムのための新しい最適化バックボーンを提案する。
従来の単分子SLAMシステムの精度, 効率, 堅牢性を向上させるために, 平均化を活用している。
我々のアプローチは、公開ベンチマークの最先端技術に対して、同等の精度で最大10倍高速に表示することができる。
論文 参考訳(メタデータ) (2020-11-02T18:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。