Fugu-MT 論文翻訳(概要): A Survey on Mamba Architecture for Vision Applications

論文の概要: A Survey on Mamba Architecture for Vision Applications

arxiv url: http://arxiv.org/abs/2502.07161v1
Date: Tue, 11 Feb 2025 00:59:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:47.94466
Title: A Survey on Mamba Architecture for Vision Applications
Title（参考訳）: ビジョンアプリケーションのためのMambaアーキテクチャに関する調査
Authors: Fady Ibrahim, Guangjun Liu, Guanghui Wang,
Abstract要約: Mambaアーキテクチャは、ビジュアルタスクにおけるスケーラビリティの課題に対処する。 Vision MambaとVideoMambaは双方向走査、選択メカニズム、時間処理を導入し、画像とビデオの理解を高めている。これらの進歩は、マンバをコンピュータビジョンの研究と応用における有望なアーキテクチャとして位置づけている。
参考スコア（独自算出の注目度）: 7.216568558372857
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers have become foundational for visual tasks such as object detection, semantic segmentation, and video understanding, but their quadratic complexity in attention mechanisms presents scalability challenges. To address these limitations, the Mamba architecture utilizes state-space models (SSMs) for linear scalability, efficient processing, and improved contextual awareness. This paper investigates Mamba architecture for visual domain applications and its recent advancements, including Vision Mamba (ViM) and VideoMamba, which introduce bidirectional scanning, selective scanning mechanisms, and spatiotemporal processing to enhance image and video understanding. Architectural innovations like position embeddings, cross-scan modules, and hierarchical designs further optimize the Mamba framework for global and local feature extraction. These advancements position Mamba as a promising architecture in computer vision research and applications.
Abstract（参考訳）: トランスフォーマーは、オブジェクト検出、セマンティックセグメンテーション、ビデオ理解などの視覚的タスクの基盤となっているが、注意機構における2次複雑さはスケーラビリティの課題を呈している。これらの制限に対処するため、Mambaアーキテクチャは線形スケーラビリティ、効率的な処理、文脈認識の改善のために状態空間モデル(SSM)を利用している。本稿では視覚領域アプリケーションのためのMambaアーキテクチャとその最近の進歩について検討し、視覚マンバ(ViM)やビデオマンバ(VideoMamba)は、双方向走査、選択的走査機構、時空間処理を導入し、画像と映像の理解を向上させる。位置埋め込み、クロススキャンモジュール、階層設計といったアーキテクチャ上の革新により、グローバルおよびローカルな特徴抽出のためのMambaフレームワークはさらに最適化されている。これらの進歩は、マンバをコンピュータビジョンの研究と応用における有望なアーキテクチャとして位置づけている。

関連論文リスト

MirrorMamba: Towards Scalable and Robust Mirror Detection in Videos [64.87702843502889]
我々はMirrorMambaと呼ばれる新しい有効でスケーラブルなビデオミラー検出手法を提案する。提案手法では,様々な条件に適応し,知覚深度,対応性,光学的手法を取り入れた。特に、この研究は、ミラー検出の分野におけるMambaベースのアーキテクチャの初めての成功例である。
論文参考訳（メタデータ） (2025-11-10T05:18:14Z)
Vision Mamba in Remote Sensing: A Comprehensive Survey of Techniques, Applications and Outlook [46.65330450810048]
状態空間モデル(SSM)は、線形計算スケーリングとグローバルコンテキストモデリングを組み合わせたパラダイムシフトソリューションとして登場した。本調査では,マンバを用いたリモートセンシング手法について概観する。
論文参考訳（メタデータ） (2025-05-01T16:07:51Z)
DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2025-04-08T08:22:54Z)
TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文参考訳（メタデータ） (2025-02-21T01:22:01Z)
Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文参考訳（メタデータ） (2024-12-21T13:43:51Z)
Mamba in Vision: A Comprehensive Survey of Techniques and Applications [3.4580301733198446]
Mambaは、コンピュータビジョンにおいて、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)が直面する課題を克服するための、新しいアプローチとして登場した。 MambaはSelective Structured State Space Modelsを活用して、線形計算の複雑さで長距離依存を効果的に捉えることで、これらの制限に対処する。
論文参考訳（メタデータ） (2024-10-04T02:58:49Z)
Distillation-free Scaling of Large SSMs for Images and Videos [27.604572990625144]
状態空間モデル(SSM)は、状態空間の技術を深層学習に組み込むことにより、新しい文脈モデリング手法を導入した。マンバベースのアーキテクチャは、パラメータの数に関してスケールが難しいため、ビジョンアプリケーションにとって大きな制限となる。本稿では,拡張性,堅牢性,性能を向上させるMamba-Attentionインターリーブアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-09-18T10:48:10Z)
MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文参考訳（メタデータ） (2024-07-10T23:02:45Z)
A Survey on Visual Mamba [16.873917203618365]
選択機構とハードウェア対応アーキテクチャを備えた状態空間モデル(SSM)、すなわちMambaは、最近、長いシーケンスモデリングにおいて大きな可能性を証明している。トランスにおける自己注意機構は、画像サイズと計算要求の増加と2次複雑さを持つため、研究者らは現在、コンピュータビジョンタスクにMambaを適用する方法を模索している。本稿では,コンピュータビジョン分野におけるMambaモデルの詳細分析を目的とした,初めての総合的な調査である。
論文参考訳（メタデータ） (2024-04-24T16:23:34Z)
PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文参考訳（メタデータ） (2024-03-26T13:35:10Z)
VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。 VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文参考訳（メタデータ） (2024-01-18T17:55:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。