論文の概要: LBMamba: Locally Bi-directional Mamba
- arxiv url: http://arxiv.org/abs/2506.15976v1
- Date: Thu, 19 Jun 2025 02:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.915644
- Title: LBMamba: Locally Bi-directional Mamba
- Title(参考訳): LBMamba: ローカル二方向マンバ
- Authors: Jingwei Zhang, Xi Han, Hong Qin, Mahdi S. Hosseini, Dimitris Samaras,
- Abstract要約: 並列選択スキャンとして再キャストすることでトレーニングを加速するステートスペースモデル(SSM)であるMambaは、自己注意の代替として線形にスケーリングし、効率的な代替品として登場した。
LBVimはスケーラブルな視覚バックボーンで、2つの層ごとにスキャン方向を交互に切り替えて、後向きの余分なスイープを伴わずにグローバルな受容場を回復する。
- 参考スコア(独自算出の注目度): 44.42862127896314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mamba, a State Space Model (SSM) that accelerates training by recasting recurrence as a parallel selective scan, has recently emerged as a linearly-scaling, efficient alternative to self-attention. Because of its unidirectional nature, each state in Mamba only has information of its previous states and is blind to states after. Current Mamba-based computer-vision methods typically overcome this limitation by augmenting Mamba's global forward scan with a global backward scan, forming a bi-directional scan that restores a full receptive field. However, this operation doubles the computational load, eroding much of the efficiency advantage that originally Mamba have. To eliminate this extra scans, we introduce LBMamba, a locally bi-directional SSM block that embeds a lightweight locally backward scan inside the forward selective scan and executes it entirely in per-thread registers. Building on LBMamba, we present LBVim, a scalable vision backbone that alternates scan directions every two layers to recover a global receptive field without extra backward sweeps. We validate the versatility of our approach on both natural images and whole slide images (WSIs). We show that our LBVim constantly offers a superior performance-throughput trade-off. That is under the same throughput, LBVim achieves 0.8% to 1.6% higher top-1 accuracy on the ImageNet-1K classification dataset, 0.6% to 2.7% higher mIoU on the ADE20K semantic segmentation dataset, 0.9% higher APb and 1.1% higher APm on the COCO detection dataset. We also integrate LBMamba into the SOTA pathology multiple instance learning (MIL) approach, MambaMIL, which uses single directional scan. Experiments on 3 public WSI classification datasets for show that our method achieves a relative improvement of up to 3.06% better AUC, 3.39% better F1, 1.67% better accuracy.
- Abstract(参考訳): 並列選択スキャンとして再キャストすることでトレーニングを加速するステートスペースモデル(SSM)であるMambaは、最近、自己注意の代わりに線形にスケーリングし、効率的な代替手段として登場した。
その一方向の性質のため、マンバの各州は以前の州に関する情報しか持っておらず、その後の州には見えない。
現在のMambaベースのコンピュータビジョン法は、一般的にこの制限を克服するために、Mambaのグローバルフォワードスキャンをグローバルな後方スキャンで拡張し、完全な受容野を復元する双方向スキャンを形成する。
しかし、この演算は計算負荷を2倍にし、もともとマンバが有していた効率性の多くを損なう。
この余分なスキャンをなくすために、LBMambaというローカルな双方向SSMブロックを導入し、このブロックは、フォワード選択スキャンの中に軽量なローカル後方スキャンを埋め込んで、スレッド単位のレジスタで完全に実行する。
LBMamba上に構築されたLBVimは,2層ごとの走査方向を交互に切り替えて,後向きの余分なスイープを伴わずにグローバルな受容場を回復する,スケーラブルな視覚バックボーンである。
自然画像と全スライド画像(WSI)にアプローチの有効性を検証した。
LBVimは常に優れたパフォーマンス・スループットのトレードオフを提供しています。
これは同じスループットで、LBVimはImageNet-1K分類データセットで0.8%から1.6%、ADE20Kセマンティックセグメンテーションデータセットで0.6%から2.7%、COCO検出データセットで0.9%、APmで1.1%の精度を達成する。
また,LBMambaを単一方向スキャンを用いたMILアプローチであるMambaMILに統合する。
3つのWSI分類データセットを用いた実験により,AUCが3.06%,F1が3.39%,精度が1.67%向上した。
関連論文リスト
- DH-Mamba: Exploring Dual-domain Hierarchical State Space Models for MRI Reconstruction [6.341065683872316]
本稿では,効率的なMRI再構成のための選択状態空間モデル(Mamba)について検討する。
マンバは通常、2D画像を行と列に沿って異なる1D配列に平坦化し、k空間のユニークなスペクトルを乱す。
既存のアプローチでは、画素レベルで画像を展開するために、多方向の長軸走査を採用しており、長距離の忘れ込みと計算負荷が高い。
論文 参考訳(メタデータ) (2025-01-14T14:41:51Z) - MambaIRv2: Attentive State Space Restoration [96.4452232356586]
マンバをベースとした画像復元バックボーンは、最近、グローバルレセプションと計算効率のバランスをとる大きな可能性を証明している。
本稿では,空間復元モデルに到達するために,MambaとViTsに似た非因果モデリング能力を備えたMambaIRv2を提案する。
論文 参考訳(メタデータ) (2024-11-22T12:45:12Z) - UNetMamba: An Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images [4.9571046933387395]
UNetMambaは、MambaをベースにしたUNetに似たセマンティックセグメンテーションモデルである。
UNetMambaは、mIoUによる最先端の手法よりも、LoveDAでは0.87%、ISPRS Vaihingenでは0.39%向上している。
論文 参考訳(メタデータ) (2024-08-21T11:53:53Z) - Hamba: Single-view 3D Hand Reconstruction with Graph-guided Bi-Scanning Mamba [48.45301469664908]
1枚のRGB画像からの3Dハンド再構成は、関節運動、自己閉塞、物体との相互作用により困難である。
既存のSOTA法では、3Dハンドポーズと形状を学ぶためにアテンションベースのトランスフォーマーを採用している。
本稿では,グラフ学習と状態空間モデリングを橋渡しするHambaというグラフ誘導型Mambaフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-12T19:04:58Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。