Fugu-MT 論文翻訳(概要): GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model

論文の概要: GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model

arxiv url: http://arxiv.org/abs/2407.13772v1
Date: Thu, 18 Jul 2024 17:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 14:12:02.248037
Title: GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model
Title（参考訳）: GroupMamba: パラメータ効率が高く正確なグループ状態空間モデル
Authors: Abdelrahman Shaker, Syed Talal Wasim, Salman Khan, Juergen Gall, Fahad Shahbaz Khan,
Abstract要約: 状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
参考スコア（独自算出の注目度）: 66.35608254724566
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in state-space models (SSMs) have showcased effective performance in modeling long-range dependencies with subquadratic complexity. However, pure SSM-based models still face challenges related to stability and achieving optimal performance on computer vision tasks. Our paper addresses the challenges of scaling SSM-based models for computer vision, particularly the instability and inefficiency of large model sizes. To address this, we introduce a Modulated Group Mamba layer which divides the input channels into four groups and applies our proposed SSM-based efficient Visual Single Selective Scanning (VSSS) block independently to each group, with each VSSS block scanning in one of the four spatial directions. The Modulated Group Mamba layer also wraps the four VSSS blocks into a channel modulation operator to improve cross-channel communication. Furthermore, we introduce a distillation-based training objective to stabilize the training of large models, leading to consistent performance gains. Our comprehensive experiments demonstrate the merits of the proposed contributions, leading to superior performance over existing methods for image classification on ImageNet-1K, object detection, instance segmentation on MS-COCO, and semantic segmentation on ADE20K. Our tiny variant with 23M parameters achieves state-of-the-art performance with a classification top-1 accuracy of 83.3% on ImageNet-1K, while being 26% efficient in terms of parameters, compared to the best existing Mamba design of same model size. Our code and models are available at: https://github.com/Amshaker/GroupMamba.
Abstract（参考訳）: 状態空間モデル(SSM)の最近の進歩は、二次的複雑性を伴う長距離依存をモデル化する上で、効果的な性能を示した。しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。そこで本研究では,入力チャネルを4つのグループに分割し,SSMに基づく効率的な視覚単選択走査(VSSS)ブロックを各グループに独立して適用し,各VSSSブロックを4つの空間方向のいずれかに走査する変調グループマンバ層を提案する。変調グループマンバ層は、4つのVSSSブロックをチャネル変調演算子にラップし、チャネル間通信を改善する。さらに,大規模モデルのトレーニングを安定させるため,蒸留をベースとしたトレーニング目標を導入し,一貫した性能向上を実現した。提案したコントリビューションのメリットを総合的に検証し,ImageNet-1K上の画像分類手法,オブジェクト検出,MS-COCO上のインスタンスセグメント,ADE20K上のセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティクスなどよりも優れた性能を示した。 23Mパラメータを持つ我々の小さな変種は、ImageNet-1Kで83.3%の精度で最先端のパフォーマンスを達成し、同じモデルサイズのMamba設計よりも26%効率が良い。私たちのコードとモデルは、https://github.com/Amshaker/GroupMamba.comで利用可能です。

関連論文リスト

QMamba: Post-Training Quantization for Vision State Space Models [45.97843526485619]
状態空間モデル(SSM)は近年、ビジョンモデルに注目が集まっている。リソース制限されたエッジデバイスにSSMをデプロイする計算コストを考えると、PTQ(Post-Training Quantization)は、SSMの効率的なデプロイを可能にする技術である。本稿では,SSMにおけるアクティベーション分布の分析に基づいて,視覚SSM向けに設計された最初のPTQフレームワークであるQMambaを提案する。
論文参考訳（メタデータ） (2025-01-23T12:45:20Z)
Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。 SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。 COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文参考訳（メタデータ） (2024-12-13T05:40:50Z)
Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文参考訳（メタデータ） (2024-11-23T06:36:16Z)
Distillation-free Scaling of Large SSMs for Images and Videos [27.604572990625144]
状態空間モデル(SSM)は、状態空間の技術を深層学習に組み込むことにより、新しい文脈モデリング手法を導入した。マンバベースのアーキテクチャは、パラメータの数に関してスケールが難しいため、ビジョンアプリケーションにとって大きな制限となる。本稿では,拡張性,堅牢性,性能を向上させるMamba-Attentionインターリーブアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-09-18T10:48:10Z)
Microscopic-Mamba: Revealing the Secrets of Microscopic Images with Just 4M Parameters [12.182070604073585]
CNNは、画像のセマンティック情報を完全に活用する能力を制限して、長距離依存のモデリングに苦労する。変換器は二次計算の複雑さによって妨げられる。本稿では,Mambaアーキテクチャに基づくモデルを提案する。
論文参考訳（メタデータ） (2024-09-12T10:01:33Z)
Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space Model [26.786890883280062]
状態空間モデル(SSM)は、その大域的受容場と線形複雑性のために広く注目を集めている。視覚タスクにおけるSSMの性能向上のために,マルチスキャン戦略が広く採用されている。本稿では,MSVMamba(Multi-Scale Vision Mamba)を導入し,限られたパラメータを持つ視覚タスクにおけるSSMの優位性を維持する。
論文参考訳（メタデータ） (2024-05-23T04:59:49Z)
MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文参考訳（メタデータ） (2024-03-29T00:05:13Z)
MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models [56.37780601189795]
本稿では,WSI分析のためのフレームワークMamMILを提案する。私たちは各WSIを非指向グラフとして表現します。マンバが1次元シーケンスしか処理できない問題に対処するために、トポロジ対応の走査機構を提案する。
論文参考訳（メタデータ） (2024-03-08T09:02:13Z)
The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。このようなモデルを注意駆動モデルとみなすことができる。この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文参考訳（メタデータ） (2024-03-03T18:58:21Z)
Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo Labeling and Multi-scale Feature Grouping [40.07070188661184]
Wakly-Supervised Concealed Object (WSCOS) は、周囲の環境とうまく融合したオブジェクトを分割することを目的としている。内在的な類似性のため、背景から隠された物体を区別することは困難である。これら2つの課題に対処する新しいWSCOS手法を提案する。
論文参考訳（メタデータ） (2023-05-18T14:31:34Z)
Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。 SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。 SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-06-16T16:46:32Z)
Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。 Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文参考訳（メタデータ） (2021-10-07T11:58:35Z)
Multiscale Deep Equilibrium Models [162.15362280927476]
マルチスケールディープ均衡モデル(MDEQ)を新たに提案する。 MDEQは、複数の特徴分解の平衡点を直接解き、同時に伝播する。本稿では,Cityscapesデータセットの高解像度画像に対するイメージネット分類とセマンティックセグメンテーションの2つの大規模ビジョンタスクにおけるこのアプローチの有効性について述べる。
論文参考訳（メタデータ） (2020-06-15T18:07:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。