論文の概要: TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba
- arxiv url: http://arxiv.org/abs/2411.17473v1
- Date: Tue, 26 Nov 2024 14:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:34:49.480197
- Title: TinyViM: Frequency Decoupling for Tiny Hybrid Vision Mamba
- Title(参考訳): TinyViM:Tiny Hybrid Vision Mambaの周波数分離
- Authors: Xiaowen Ma, Zhenliang Ni, Xinghao Chen,
- Abstract要約: Mambaはその線形複雑性のためにコンピュータビジョンに大きな可能性を示している。
既存の軽量なMambaベースのバックボーンは、ConvolutionやTransformerベースのメソッドにマッチするパフォーマンスを示すことはできない。
モバイルフレンドリーなコンボリューションと効率的なLaplaceミキサーを組み合わせることで、TinyViMと呼ばれる小さなハイブリッドビジョンを構築できる。
- 参考スコア(独自算出の注目度): 11.176993272867396
- License:
- Abstract: Mamba has shown great potential for computer vision due to its linear complexity in modeling the global context with respect to the input length. However, existing lightweight Mamba-based backbones cannot demonstrate performance that matches Convolution or Transformer-based methods. We observe that simply modifying the scanning path in the image domain is not conducive to fully exploiting the potential of vision Mamba. In this paper, we first perform comprehensive spectral and quantitative analyses, and verify that the Mamba block mainly models low-frequency information under Convolution-Mamba hybrid architecture. Based on the analyses, we introduce a novel Laplace mixer to decouple the features in terms of frequency and input only the low-frequency components into the Mamba block. In addition, considering the redundancy of the features and the different requirements for high-frequency details and low-frequency global information at different stages, we introduce a frequency ramp inception, i.e., gradually reduce the input dimensions of the high-frequency branches, so as to efficiently trade-off the high-frequency and low-frequency components at different layers. By integrating mobile-friendly convolution and efficient Laplace mixer, we build a series of tiny hybrid vision Mamba called TinyViM. The proposed TinyViM achieves impressive performance on several downstream tasks including image classification, semantic segmentation, object detection and instance segmentation. In particular, TinyViM outperforms Convolution, Transformer and Mamba-based models with similar scales, and the throughput is about 2-3 times higher than that of other Mamba-based models. Code is available at https://github.com/xwmaxwma/TinyViM.
- Abstract(参考訳): Mambaは、入力長に関するグローバルコンテキストをモデル化する際の線形複雑化のために、コンピュータビジョンに大きな可能性を示した。
しかし、既存の軽量なMambaベースのバックボーンは、ConvolutionやTransformerベースのメソッドにマッチするパフォーマンスを示すことはできない。
画像領域の走査経路を単純に修正することは、視覚的マンバの可能性を完全に活用するのには役に立たないことを観察する。
本稿ではまず,コンボリューション・マンバハイブリッドアーキテクチャの下で,マンバブロックが主に低周波情報をモデル化していることを検証する。
そこで本研究では,周波数と低周波成分のみをMambaブロックに入力する新しいラプラスミキサーを提案する。
また,高周波詳細情報と低周波グローバル情報の異なる要件の冗長性を考慮すると,高周波分岐の入力次元を徐々に減らし,異なる層における高周波成分と低周波成分のトレードオフを効率的に行うために,周波数ランプインセプションを導入する。
モバイルフレンドリーなコンボリューションと効率的なLaplaceミキサーを組み合わせることで、TinyViMと呼ばれる小さなハイブリッドビジョンを構築できる。
提案したTinyViMは、画像分類、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションなど、いくつかの下流タスクで素晴らしいパフォーマンスを実現している。
特にTinyViMは、Convolution、Transformer、Mambaベースのモデルよりもパフォーマンスが良く、スループットは他のMambaベースのモデルよりも約2~3倍高い。
コードはhttps://github.com/xwmaxwma/TinyViM.comで入手できる。
関連論文リスト
- MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - MambaHSI: Spatial-Spectral Mamba for Hyperspectral Image Classification [46.111607032455225]
本稿では,Mambaモデルに基づく新しいHSI分類モデル,MambaHSIを提案する。
具体的には,空間的マンバブロック(SpaMB)を設計し,画素レベルの画像全体の長距離相互作用をモデル化する。
スペクトルベクトルを複数のグループに分割し、異なるスペクトル群間の関係をマイニングし、スペクトル特徴を抽出するスペクトルマンバブロック(SpeMB)を提案する。
論文 参考訳(メタデータ) (2025-01-09T03:27:47Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - UltraLight VM-UNet: Parallel Vision Mamba Significantly Reduces Parameters for Skin Lesion Segmentation [2.0555786400946134]
ステートスペースモデル(SSM)は、従来のCNNやTransformerと強力な競合関係にある。
そこで我々はUltraLight Vision Mamba UNet (UltraLight VM-UNet)を提案する。
具体的には、PVM Layer という名前のVision Mamba を並列処理する手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T08:03:42Z) - ZigMa: A DiT-style Zigzag Mamba Diffusion Model [22.68317748373856]
我々は、Mambaと呼ばれる状態空間モデルの長いシーケンスモデリング機能を活用し、その視覚データ生成への適用性を高めることを目指している。
我々は,Zigzag Mamba という,シンプルな,プラグアンドプレイのゼロパラメータ法を導入し,Mamba ベースのベースラインを上回ります。
Zigzag Mamba と Interpolant フレームワークを統合し,大規模なビジュアルデータセット上でのモデルのスケーラビリティについて検討する。
論文 参考訳(メタデータ) (2024-03-20T17:59:14Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。