Fugu-MT 論文翻訳(概要): A Survey on Visual Mamba

論文の概要: A Survey on Visual Mamba

arxiv url: http://arxiv.org/abs/2404.15956v1
Date: Wed, 24 Apr 2024 16:23:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 18:41:38.135293
Title: A Survey on Visual Mamba
Title（参考訳）: 視覚マンバに関する調査
Authors: Hanwei Zhang, Ying Zhu, Dan Wang, Lijun Zhang, Tianxiang Chen, Zi Ye,
Abstract要約: 選択機構とハードウェア対応アーキテクチャを備えた状態空間モデル(SSM)、すなわちMambaは、最近、長いシーケンスモデリングにおいて大きな可能性を証明している。トランスにおける自己注意機構は、画像サイズと計算要求の増加と2次複雑さを持つため、研究者らは現在、コンピュータビジョンタスクにMambaを適用する方法を模索している。本稿では,コンピュータビジョン分野におけるMambaモデルの詳細分析を目的とした,初めての総合的な調査である。
参考スコア（独自算出の注目度）: 16.873917203618365
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: State space models (SSMs) with selection mechanisms and hardware-aware architectures, namely Mamba, have recently demonstrated significant promise in long-sequence modeling. Since the self-attention mechanism in transformers has quadratic complexity with image size and increasing computational demands, the researchers are now exploring how to adapt Mamba for computer vision tasks. This paper is the first comprehensive survey aiming to provide an in-depth analysis of Mamba models in the field of computer vision. It begins by exploring the foundational concepts contributing to Mamba's success, including the state space model framework, selection mechanisms, and hardware-aware design. Next, we review these vision mamba models by categorizing them into foundational ones and enhancing them with techniques such as convolution, recurrence, and attention to improve their sophistication. We further delve into the widespread applications of Mamba in vision tasks, which include their use as a backbone in various levels of vision processing. This encompasses general visual tasks, Medical visual tasks (e.g., 2D / 3D segmentation, classification, and image registration, etc.), and Remote Sensing visual tasks. We specially introduce general visual tasks from two levels: High/Mid-level vision (e.g., Object detection, Segmentation, Video classification, etc.) and Low-level vision (e.g., Image super-resolution, Image restoration, Visual generation, etc.). We hope this endeavor will spark additional interest within the community to address current challenges and further apply Mamba models in computer vision.
Abstract（参考訳）: 選択機構とハードウェア対応アーキテクチャを備えた状態空間モデル(SSM)、すなわちMambaは、最近、長いシーケンスモデリングにおいて大きな可能性を証明している。トランスにおける自己注意機構は、画像サイズと計算要求の増加と2次複雑さを持つため、研究者らは現在、コンピュータビジョンタスクにMambaを適用する方法を模索している。本稿では,コンピュータビジョン分野におけるMambaモデルの詳細分析を目的とした,初めての総合的な調査である。これは、状態空間モデルフレームワーク、選択メカニズム、ハードウェア対応設計など、Mambaの成功に寄与する基本的な概念を探求することから始まる。次に、これらの視覚マンバモデルについて、基礎的なモデルに分類し、その高度化を図るために、畳み込み、再発、注意などのテクニックで強化することでレビューする。さらに、様々な視覚処理におけるバックボーンとしての利用を含む、視覚タスクにおけるMambaの幅広い応用を掘り下げる。これには、一般的な視覚タスク、医療視覚タスク(例えば、2D/3Dセグメンテーション、分類、画像登録など)、リモートセンシング視覚タスクが含まれる。本稿では,高次視覚(オブジェクト検出,セグメンテーション,ビデオ分類など)と低次視覚(画像超解像,画像復元,視覚生成など)の2段階から一般的な視覚タスクを紹介する。この取り組みが、現在の課題に対処し、さらにマンバモデルをコンピュータビジョンに適用するために、コミュニティ内でさらなる関心を喚起することを期待しています。

関連論文リスト

DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2025-04-08T08:22:54Z)
DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。 DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文参考訳（メタデータ） (2025-02-18T08:12:47Z)
A Survey on Mamba Architecture for Vision Applications [7.216568558372857]
Mambaアーキテクチャは、ビジュアルタスクにおけるスケーラビリティの課題に対処する。 Vision MambaとVideoMambaは双方向走査、選択メカニズム、時間処理を導入し、画像とビデオの理解を高めている。これらの進歩は、マンバをコンピュータビジョンの研究と応用における有望なアーキテクチャとして位置づけている。
論文参考訳（メタデータ） (2025-02-11T00:59:30Z)
Mamba in Vision: A Comprehensive Survey of Techniques and Applications [3.4580301733198446]
Mambaは、コンピュータビジョンにおいて、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)が直面する課題を克服するための、新しいアプローチとして登場した。 MambaはSelective Structured State Space Modelsを活用して、線形計算の複雑さで長距離依存を効果的に捉えることで、これらの制限に対処する。
論文参考訳（メタデータ） (2024-10-04T02:58:49Z)
A Survey of Mamba [27.939712558507516]
近年,基礎モデル構築の代替手段として,Mambaという新しいアーキテクチャが登場している。本研究では,マンバモデルの発展,多様なデータにマンバを適応させる技術,およびマンバが優れている応用について検討する。
論文参考訳（メタデータ） (2024-08-02T09:18:41Z)
MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文参考訳（メタデータ） (2024-07-10T23:02:45Z)
Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文参考訳（メタデータ） (2024-05-26T15:31:09Z)
Vision Mamba: A Comprehensive Survey and Taxonomy [11.025533218561284]
状態空間モデル (State Space Model, SSM) は、動的システムの振る舞いを記述・解析するために用いられる数学的モデルである。最新の状態空間モデルに基づいて、Mambaは時間変化パラメータをSSMにマージし、効率的なトレーニングと推論のためのハードウェア認識アルゴリズムを定式化する。 Mambaは、Transformerを上回る可能性のある、新たなAIアーキテクチャになることが期待されている。
論文参考訳（メタデータ） (2024-05-07T15:30:14Z)
Visual Mamba: A Survey and New Outlooks [33.90213491829634]
最近の選択的構造化状態空間モデルであるMambaは、ロングシーケンスモデリングにおいて優れている。 2024年1月以降、マンバは多様なコンピュータビジョンタスクに積極的に適用されてきた。本稿では,200以上の論文を分析し,マンバの視覚的アプローチを概観する。
論文参考訳（メタデータ） (2024-04-29T16:51:30Z)
Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding [49.88140766026886]
状態空間モデルMambaは、長周期モデリングからビデオモデリングへの成功を拡大する有望な特性を示している。我々は、マンバがビデオのモデリングにおいて様々な役割を担い、マンバが優位性を示す様々なタスクを調査しながら、包括的な研究を行う。実験の結果,ビデオ専用タスクとビデオ言語タスクの両方において,Mambaの強い可能性を示すとともに,有望な効率と性能のトレードオフを示すことができた。
論文参考訳（メタデータ） (2024-03-14T17:57:07Z)
Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。 Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-05T18:58:11Z)
VMamba: Visual State Space Model [92.83984290020891]
VMambaは、線形時間複雑性で動作するビジョンバックボーンである。 VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文参考訳（メタデータ） (2024-01-18T17:55:39Z)
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。 Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文参考訳（メタデータ） (2024-01-17T18:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。