論文の概要: GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model
- arxiv url: http://arxiv.org/abs/2407.13772v1
- Date: Thu, 18 Jul 2024 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:12:02.248037
- Title: GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model
- Title(参考訳): GroupMamba: パラメータ効率が高く正確なグループ状態空間モデル
- Authors: Abdelrahman Shaker, Syed Talal Wasim, Salman Khan, Juergen Gall, Fahad Shahbaz Khan,
- Abstract要約: 状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。
しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
- 参考スコア(独自算出の注目度): 66.35608254724566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in state-space models (SSMs) have showcased effective performance in modeling long-range dependencies with subquadratic complexity. However, pure SSM-based models still face challenges related to stability and achieving optimal performance on computer vision tasks. Our paper addresses the challenges of scaling SSM-based models for computer vision, particularly the instability and inefficiency of large model sizes. To address this, we introduce a Modulated Group Mamba layer which divides the input channels into four groups and applies our proposed SSM-based efficient Visual Single Selective Scanning (VSSS) block independently to each group, with each VSSS block scanning in one of the four spatial directions. The Modulated Group Mamba layer also wraps the four VSSS blocks into a channel modulation operator to improve cross-channel communication. Furthermore, we introduce a distillation-based training objective to stabilize the training of large models, leading to consistent performance gains. Our comprehensive experiments demonstrate the merits of the proposed contributions, leading to superior performance over existing methods for image classification on ImageNet-1K, object detection, instance segmentation on MS-COCO, and semantic segmentation on ADE20K. Our tiny variant with 23M parameters achieves state-of-the-art performance with a classification top-1 accuracy of 83.3% on ImageNet-1K, while being 26% efficient in terms of parameters, compared to the best existing Mamba design of same model size. Our code and models are available at: https://github.com/Amshaker/GroupMamba.
- Abstract(参考訳): 状態空間モデル(SSM)の最近の進歩は、二次的複雑性を伴う長距離依存をモデル化する上で、効果的な性能を示した。
しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
そこで本研究では,入力チャネルを4つのグループに分割し,SSMに基づく効率的な視覚単選択走査(VSSS)ブロックを各グループに独立して適用し,各VSSSブロックを4つの空間方向のいずれかに走査する変調グループマンバ層を提案する。
変調グループマンバ層は、4つのVSSSブロックをチャネル変調演算子にラップし、チャネル間通信を改善する。
さらに,大規模モデルのトレーニングを安定させるため,蒸留をベースとしたトレーニング目標を導入し,一貫した性能向上を実現した。
提案したコントリビューションのメリットを総合的に検証し,ImageNet-1K上の画像分類手法,オブジェクト検出,MS-COCO上のインスタンスセグメント,ADE20K上のセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティクスなどよりも優れた性能を示した。
23Mパラメータを持つ我々の小さな変種は、ImageNet-1Kで83.3%の精度で最先端のパフォーマンスを達成し、同じモデルサイズのMamba設計よりも26%効率が良い。
私たちのコードとモデルは、https://github.com/Amshaker/GroupMamba.comで利用可能です。
関連論文リスト
- Precision matters: Precision-aware ensemble for weakly supervised semantic segmentation [14.931551206723041]
Weakly Supervised Semantic (WSSS) は、画像レベルのラベルなどの弱い監督を、セグメンテーションモデルをトレーニングするために採用している。
我々はWSSSに適した高度なアンサンブルアプローチであるORANDNetを提案する。
論文 参考訳(メタデータ) (2024-06-28T03:58:02Z) - Mamba-based Light Field Super-Resolution with Efficient Subspace Scanning [48.99361249764921]
4次元光場(LF)超解像において,トランスフォーマー法は優れた性能を示した。
しかし、その二次的な複雑さは、高解像度の4D入力の効率的な処理を妨げる。
我々は,効率的な部分空間走査戦略を設計し,マンバをベースとした光場超解法 MLFSR を提案する。
論文 参考訳(メタデータ) (2024-06-23T11:28:08Z) - Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space Model [26.786890883280062]
状態空間モデル(SSM)は、その大域的受容場と線形複雑性のために広く注目を集めている。
視覚タスクにおけるSSMの性能向上のために,マルチスキャン戦略が広く採用されている。
本稿では,MSVMamba(Multi-Scale Vision Mamba)を導入し,限られたパラメータを持つ視覚タスクにおけるSSMの優位性を維持する。
論文 参考訳(メタデータ) (2024-05-23T04:59:49Z) - SPMamba: State-space model is all you need in speech separation [6.590157910988076]
状態空間モデルを用いた音声分離のためのネットワークアーキテクチャを提案する。
我々はTF-GridNetモデルを基本フレームワークとして採用し、Transformerコンポーネントを双方向のMambaモジュールで置き換える。
実験の結果,マンバモデルの性能面において重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-04-02T16:04:31Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - Rotate to Scan: UNet-like Mamba with Triplet SSM Module for Medical Image Segmentation [8.686237221268584]
本稿では,新しいタイプの画像分割ネットワークとしてTriplet Mamba-UNetを提案する。
本モデルでは,従来のVM-UNetと比較してパラメータの3分の1の削減を実現している。
論文 参考訳(メタデータ) (2024-03-26T13:40:18Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Multiscale Deep Equilibrium Models [162.15362280927476]
マルチスケールディープ均衡モデル(MDEQ)を新たに提案する。
MDEQは、複数の特徴分解の平衡点を直接解き、同時に伝播する。
本稿では,Cityscapesデータセットの高解像度画像に対するイメージネット分類とセマンティックセグメンテーションの2つの大規模ビジョンタスクにおけるこのアプローチの有効性について述べる。
論文 参考訳(メタデータ) (2020-06-15T18:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。