Fugu-MT 論文翻訳(概要): VMamba: Visual State Space Model

論文の概要: VMamba: Visual State Space Model

arxiv url: http://arxiv.org/abs/2401.10166v1
Date: Thu, 18 Jan 2024 17:55:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 15:34:11.677397
Title: VMamba: Visual State Space Model
Title（参考訳）: vmamba: 視覚状態空間モデル
Authors: Yue Liu and Yunjie Tian and Yuzhong Zhao and Hongtian Yu and Lingxi Xie and Yaowei Wang and Qixiang Ye and Yunfan Liu
Abstract要約: 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習の最も一般的な2つの基礎モデルである。計算効率を向上しつつ,これらのコンポーネントを継承する新しいアーキテクチャを提案する。空間領域を横断するクロススキャンモジュール(CSM)を導入し,任意の非因果的視覚画像を順序付きパッチシーケンスに変換する。
参考スコア（独自算出の注目度）: 96.83847407325486
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) stand as the two most popular foundation models for visual representation learning. While CNNs exhibit remarkable scalability with linear complexity w.r.t. image resolution, ViTs surpass them in fitting capabilities despite contending with quadratic complexity. A closer inspection reveals that ViTs achieve superior visual modeling performance through the incorporation of global receptive fields and dynamic weights. This observation motivates us to propose a novel architecture that inherits these components while enhancing computational efficiency. To this end, we draw inspiration from the recently introduced state space model and propose the Visual State Space Model (VMamba), which achieves linear complexity without sacrificing global receptive fields. To address the encountered direction-sensitive issue, we introduce the Cross-Scan Module (CSM) to traverse the spatial domain and convert any non-causal visual image into order patch sequences. Extensive experimental results substantiate that VMamba not only demonstrates promising capabilities across various visual perception tasks, but also exhibits more pronounced advantages over established benchmarks as the image resolution increases. Source code has been available at https://github.com/MzeroMiko/VMamba.
Abstract（参考訳）: 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習の最も一般的な2つの基礎モデルである。 CNNは2次複雑性と競合するにも拘わらず、画像解像度が線形であるのに対して、ViTは2次複雑性に勝っている。より綿密な検査により,大域的受容場と動的重み付けを組み込むことにより,ViTの視覚的モデリング性能が向上することが明らかとなった。この観察は、計算効率を高めつつ、これらのコンポーネントを継承する新しいアーキテクチャを提案する動機となった。この目的のために,最近導入された状態空間モデルから着想を得て,グローバル受容場を犠牲にすることなく線形複雑化を実現する視覚状態空間モデル(vmamba)を提案する。そこで我々はCSM(Cross-Scan Module)を導入し,空間領域を横切り,任意の非因果的視覚画像を整列配列に変換する。広範な実験の結果、vmambaは様々な視覚知覚タスクにまたがる有望な能力を示すだけでなく、画像の解像度が上がるにつれて確立されたベンチマークよりも明確な利点を示すことが判明した。ソースコードはhttps://github.com/mzeromiko/vmambaで入手できる。

関連論文リスト

DefMamba: Deformable Visual State Space Model [65.50381013020248]
我々はDefMambaと呼ばれる新しい視覚基盤モデルを提案する。変形性スキャン(DS)戦略を組み合わせることで、画像構造を学習し、オブジェクトの細部の変化を検出する能力を大幅に向上する。多くの実験により、DefMambaは様々な視覚的タスクで最先端のパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2025-04-08T08:22:54Z)
DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。 DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文参考訳（メタデータ） (2025-02-18T08:12:47Z)
Mamba2D: A Natively Multi-Dimensional State-Space Model for Vision Tasks [47.49096400786856]
State-Space Models (SSM) は、長年のトランスフォーマーアーキテクチャに代わる強力で効率的な代替品として最近登場した。多次元の定式化から始めて、現代の選択的状態空間技術を再導出する。 Mamba2Dは、ImageNet-1Kデータセットを用いた標準的な画像分類評価において、視覚タスクに対するSSMの事前適応と同等の性能を示す。
論文参考訳（メタデータ） (2024-12-20T18:50:36Z)
Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion [46.82975707531064]
SSM(Selective State Space Model)は、1Dシーケンシャルデータにおける長距離依存関係のキャプチャに優れる。本研究では,地域間直接接続を実現する新しいアプローチであるSpatial-Mambaを提案する。画像分類,検出,セグメンテーションにおいて,空間マンバは,単一のスキャンであっても,最先端のSSMベースのモデルを達成したり,超えたりしていることを示す。
論文参考訳（メタデータ） (2024-10-19T12:56:58Z)
V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。 2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文参考訳（メタデータ） (2024-10-14T11:11:06Z)
HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文参考訳（メタデータ） (2024-10-04T06:19:29Z)
MHS-VM: Multi-Head Scanning in Parallel Subspaces for Vision Mamba [0.43512163406552]
Mambaとのステートスペースモデル(SSM)は、線形複雑性を伴う長距離依存性モデリングを大いに約束している。 1次元選択的スキャンにより2次元画像空間内の視覚的特徴を効果的に整理・構築するために,新しいマルチヘッドスキャン(MHS)モジュールを提案する。その結果、マルチヘッドスキャンプロセスから得られたサブ埋め込みは統合され、最終的に高次元空間に投影される。
論文参考訳（メタデータ） (2024-06-10T03:24:43Z)
MambaVC: Learned Visual Compression with Selective State Spaces [74.29217829932895]
本稿では,SSMに基づくシンプルで強力で効率的な圧縮ネットワークであるMambaVCを紹介する。 MambaVC は2次元選択的走査 (2DSS) モジュールを備えた視覚状態空間 (VSS) ブロックを各ダウンサンプリング後の非線形活性化関数として開発する。圧縮ベンチマークデータセットでは、MambaVCはより低い計算とメモリオーバーヘッドでより優れたレート歪み性能を達成する。
論文参考訳（メタデータ） (2024-05-24T10:24:30Z)
VMambaMorph: a Multi-Modality Deformable Image Registration Framework based on Visual State Space Model with Cross-Scan Module [19.5487294104318]
本稿では,VMambaMorphという画像登録機能を備えたVMambaの探索について紹介する。新たなハイブリッドVMamba-CNNネットワークは、3D画像登録用に特別に設計されている。我々は,VMambaMorphを公開ベンチマーク脳MR-CT登録データセットを用いて検証し,その性能を現在の最先端手法と比較した。
論文参考訳（メタデータ） (2024-04-07T23:10:26Z)
LocalMamba: Visual State Space Model with Windowed Selective Scan [45.00004931200446]
Vision Mamba (ViM) を強化する鍵は、シーケンスモデリングのためのスキャン方向を最適化することにある。画像を異なるウィンドウに分割し、ローカル依存関係を効果的にキャプチャする新しいローカルスキャン戦略を導入する。我々のモデルは、同じ1.5G FLOPでImageNetでVim-Tiを3.1%上回りました。
論文参考訳（メタデータ） (2024-03-14T12:32:40Z)
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。 Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文参考訳（メタデータ） (2024-01-17T18:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。