論文の概要: StereoMamba: Real-time and Robust Intraoperative Stereo Disparity Estimation via Long-range Spatial Dependencies
- arxiv url: http://arxiv.org/abs/2504.17401v1
- Date: Thu, 24 Apr 2025 09:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.316867
- Title: StereoMamba: Real-time and Robust Intraoperative Stereo Disparity Estimation via Long-range Spatial Dependencies
- Title(参考訳): StereoMamba:長距離空間依存性を用いた実時間およびロバストな術中ステレオ距離推定
- Authors: Xu Wang, Jialang Xu, Shuai Zhang, Baoru Huang, Danail Stoyanov, Evangelos B. Mazomenos,
- Abstract要約: 本稿では,RAMIS の立体差分推定に特化して設計された StereoMamba アーキテクチャを提案する。
提案手法は,長距離空間依存性を高める新しい抽出特徴マンバ (FE-Mamba) モジュールに基づいている。
SCAREDの最先端に対する実験は、StereoMambaが優れたパフォーマンスを実現していることを示している。
- 参考スコア(独自算出の注目度): 16.10589718089946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stereo disparity estimation is crucial for obtaining depth information in robot-assisted minimally invasive surgery (RAMIS). While current deep learning methods have made significant advancements, challenges remain in achieving an optimal balance between accuracy, robustness, and inference speed. To address these challenges, we propose the StereoMamba architecture, which is specifically designed for stereo disparity estimation in RAMIS. Our approach is based on a novel Feature Extraction Mamba (FE-Mamba) module, which enhances long-range spatial dependencies both within and across stereo images. To effectively integrate multi-scale features from FE-Mamba, we then introduce a novel Multidimensional Feature Fusion (MFF) module. Experiments against the state-of-the-art on the ex-vivo SCARED benchmark demonstrate that StereoMamba achieves superior performance on EPE of 2.64 px and depth MAE of 2.55 mm, the second-best performance on Bad2 of 41.49% and Bad3 of 26.99%, while maintaining an inference speed of 21.28 FPS for a pair of high-resolution images (1280*1024), striking the optimum balance between accuracy, robustness, and efficiency. Furthermore, by comparing synthesized right images, generated from warping left images using the generated disparity maps, with the actual right image, StereoMamba achieves the best average SSIM (0.8970) and PSNR (16.0761), exhibiting strong zero-shot generalization on the in-vivo RIS2017 and StereoMIS datasets.
- Abstract(参考訳): ロボットによる最小侵襲手術(RAMIS)において,立体差分推定は深度情報を得る上で重要である。
現在のディープラーニング手法は大きな進歩を遂げているが、精度、堅牢性、推論速度の最適バランスを達成する上での課題は残る。
これらの課題に対処するため,RAMIS における立体差分推定に特化して設計された StereoMamba アーキテクチャを提案する。
提案手法は,ステレオ画像内および立体画像間の長距離空間依存性を高める新しい特徴抽出マンバ (FE-Mamba) モジュールに基づいている。
FE-Mambaのマルチスケール機能を効果的に統合するために,新しい多次元特徴融合(MFF)モジュールを導入する。
以前のSCAREDベンチマークに対する実験では、ステレオマンバは2.64pxのEPEと2.55mmのMAE、バッド2の41.49%、バッド3の26.99%での2番目に高いパフォーマンスを達成し、高解像度画像(1280*1024)に対する21.28FPSの推論速度を維持し、精度、堅牢性、効率の最適バランスを達成している。
さらに、生成した不均一マップを用いて左画像の歪みから生成された合成右画像と実際の右画像を比較することにより、SSIM(0.8970)とPSNR(16.0761)を最高の平均値で達成し、RIS2017とStereoMISデータセットに対して強いゼロショット一般化を示す。
関連論文リスト
- Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [62.37493746544967]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion [88.67015254278859]
ステレオ変換の詳細な探索を支援するため,高品質なトレーニングデータとベンチマークを提供するMono2Stereoデータセットを紹介した。
1) 左右のビューの違いは微妙であるが、既存のメトリクスでは全体のピクセルを考慮し、ステレオ効果に批判的な領域に集中できない。
本稿では, ステレオ効果に関する人間の判断と高い相関性が得られる新しい評価指標, Stereo Intersection-over-Union を提案する。
論文 参考訳(メタデータ) (2025-03-28T09:25:58Z) - Mixture-of-Mamba: Enhancing Multi-Modal State-Space Models with Modality-Aware Sparsity [56.0251572416922]
状態空間モデル(SSM)は、シーケンシャルモデリングのためのトランスフォーマーの効率的な代替手段として登場した。
本稿では,Mambaブロックのモダリティ特異的パラメータ化により,モダリティを意識した疎結合を実現する新しいSSMアーキテクチャを提案する。
マルチモーダル事前学習環境におけるMixture-of-Mambaの評価を行った。
論文 参考訳(メタデータ) (2025-01-27T18:35:05Z) - Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。
本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。
テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文 参考訳(メタデータ) (2025-01-02T13:56:23Z) - 2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification [40.10133518650528]
画像の2次元空間構造を組み込んだ新しい2次元選択型SSMフレームワークである2DMambaを提案する。
WSI分類と生存分析のための10の公開データセットの実験では、2DMambaはAUCで2.48%、F1スコアで3.11%、精度で2.47%、Cインデックスで5.52%改善している。
論文 参考訳(メタデータ) (2024-12-01T05:42:58Z) - StableMamba: Distillation-free Scaling of Large SSMs for Images and Videos [27.604572990625144]
状態空間モデル(SSM)は、状態空間の技術を深層学習に組み込むことにより、新しい文脈モデリング手法を導入した。
マンバベースのアーキテクチャは、パラメータの数に関してスケールが難しいため、ビジョンアプリケーションにとって大きな制限となる。
本稿では,拡張性,堅牢性,性能を向上させるMamba-Attentionインターリーブアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-18T10:48:10Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Expanding Sparse Guidance for Stereo Matching [24.74333370941674]
局所特徴強調のためのRGB画像に関するスパースキューを拡大する新しい空間拡張手法を提案する。
提案手法は,最先端のステレオアルゴリズムを極めてスパースな手法で大幅に向上させる。
論文 参考訳(メタデータ) (2020-04-24T06:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。