論文の概要: Robust Real-Time Endoscopic Stereo Matching under Fuzzy Tissue Boundaries
- arxiv url: http://arxiv.org/abs/2503.00731v3
- Date: Wed, 15 Oct 2025 01:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 13:11:49.408256
- Title: Robust Real-Time Endoscopic Stereo Matching under Fuzzy Tissue Boundaries
- Title(参考訳): ファジィ組織境界下でのロバストリアルタイム内視鏡ステレオマッチング
- Authors: Yang Ding, Can Han, Sijia Du, Yaqi Wang, Dahong Qian,
- Abstract要約: ロボットによる最小侵襲手術の自動化には,正確なシーン深度をリアルタイムに取得することが不可欠である。
既存のステレオマッチング法は、主に自然画像用に設計されており、ファジィ組織の境界のために内視鏡画像に苦しむことが多い。
内視鏡画像に適したリアルタイムステレオマッチング法である textbfRRESM を提案する。
- 参考スコア(独自算出の注目度): 8.217543444539652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time acquisition of accurate scene depth is essential for automated robotic minimally invasive surgery. Stereo matching with binocular endoscopy can provide this depth information. However, existing stereo matching methods, designed primarily for natural images, often struggle with endoscopic images due to fuzzy tissue boundaries and typically fail to meet real-time requirements for high-resolution endoscopic image inputs. To address these challenges, we propose \textbf{RRESM}, a real-time stereo matching method tailored for endoscopic images. Our approach integrates a 3D Mamba Coordinate Attention module that enhances cost aggregation through position-sensitive attention maps and long-range spatial dependency modeling via the Mamba block, generating a robust cost volume without substantial computational overhead. Additionally, we introduce a High-Frequency Disparity Optimization module that refines disparity predictions near tissue boundaries by amplifying high-frequency details in the wavelet domain. Evaluations on the SCARED and SERV-CT datasets demonstrate state-of-the-art matching accuracy with a real-time inference speed of 42 FPS. The code is available at https://github.com/Sonne-Ding/RRESM.
- Abstract(参考訳): ロボットによる最小侵襲手術の自動化には,正確なシーン深度をリアルタイムに取得することが不可欠である。
両眼内視鏡とのステレオマッチングは、この深度情報を提供することができる。
しかし、主に自然画像用に設計された既存のステレオマッチング法は、ファジィ組織の境界による内視鏡画像に苦しむことが多く、通常は高解像度の内視鏡画像入力のリアルタイム要求を満たすことができない。
これらの課題に対処するために,内視鏡画像に適したリアルタイムステレオマッチング法である \textbf{RRESM} を提案する。
提案手法は,3次元マンバ座標アテンションモジュールを統合し,位置感性アテンションマップによるコストアグリゲーションと,マンバブロックによる長距離空間依存性モデリングを実現し,計算オーバーヘッドを伴わないロバストなコストボリュームを生成する。
さらに,ウェーブレット領域の高周波詳細を増幅することにより,組織境界近傍の拡散予測を改良する高周波異方性最適化モジュールを導入する。
SCAREDおよびSERV-CTデータセットの評価は、42FPSのリアルタイム推論速度で最先端のマッチング精度を示す。
コードはhttps://github.com/Sonne-Ding/RRESM.comで公開されている。
関連論文リスト
- EndoMUST: Monocular Depth Estimation for Robotic Endoscopy via End-to-end Multi-step Self-supervised Training [0.7499722271664147]
本研究では,多段効率のファインタニングを施した新しいフレームワークを提案する。
基礎モデルに基づくパラメータ効率の微調整に基づいて,提案手法は最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-19T04:31:59Z) - DERD-Net: Learning Depth from Event-based Ray Densities [11.309936820480111]
イベントカメラは、多視点ステレオ深度推定とSLAMのための有望な道を提供する。
本稿では,単眼・ステレオ両方のイベントカメラを用いた画素幅推定のための,スケーラブルでフレキシブルで適応可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T12:58:05Z) - Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [62.37493746544967]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - Advancing Dense Endoscopic Reconstruction with Gaussian Splatting-driven Surface Normal-aware Tracking and Mapping [12.027762278121052]
Endo-2DTAMは2次元ガウススプラッティング(2DGS)を用いたリアルタイム内視鏡SLAMシステムである
私たちのロバストなトラッキングモジュールは、ポイントツーポイントとポイントツープレーン距離のメトリクスを組み合わせています。
マッピングモジュールは, 通常の整合性および深さ歪みを利用して表面再構成品質を向上する。
論文 参考訳(メタデータ) (2025-01-31T17:15:34Z) - Deep Sylvester Posterior Inference for Adaptive Compressed Sensing in Ultrasound Imaging [16.553626039240903]
必要なスキャンラインの数を最小化することで、フレームレート、視野、エネルギー効率、データ転送速度を大幅に向上させることができる。
本稿では,固有情報ゲインをその場で最大化する適応サブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T14:37:14Z) - Stereo-Depth Fusion through Virtual Pattern Projection [37.519762078762575]
本稿では,新しい汎用ステレオ・ディープデータ融合パラダイムを提案する。
これは、信頼できない物理パターンプロジェクターを奥行きセンサーに置き換えることで、アクティブなステレオ原理を模倣する。
従来のステレオカメラで取得した左右の画像に、シーン形状と整合した仮想パターンを投影する。
論文 参考訳(メタデータ) (2024-06-06T17:59:58Z) - MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。
我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。
また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文 参考訳(メタデータ) (2024-04-01T04:57:41Z) - AiAReSeg: Catheter Detection and Segmentation in Interventional
Ultrasound using Transformers [75.20925220246689]
血管内手術は、電離放射線を用いてカテーテルと血管を可視化するFluoroscopyの黄金標準を用いて行われる。
本研究では、最先端機械学習トランスフォーマアーキテクチャを応用して、軸干渉超音波画像シーケンス中のカテーテルを検出し、セグメント化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-25T19:34:12Z) - Self-Supervised Depth Estimation in Laparoscopic Image using 3D
Geometric Consistency [7.902636435901286]
立体対に隠された3次元構造情報を利用する自己教師型深度推定器M3Depthを提案する。
提案手法は,公開データセットと新たに取得したデータセットの両方において,従来の自己教師型アプローチよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-08-17T17:03:48Z) - Deep Learning for Ultrasound Beamforming [120.12255978513912]
受信した超音波エコーを空間画像領域にマッピングするビームフォーミングは、超音波画像形成チェーンの心臓に位置する。
現代の超音波イメージングは、強力なデジタル受信チャネル処理の革新に大きく依存している。
ディープラーニング手法は、デジタルビームフォーミングパイプラインにおいて魅力的な役割を果たす。
論文 参考訳(メタデータ) (2021-09-23T15:15:21Z) - A Real-Time Online Learning Framework for Joint 3D Reconstruction and
Semantic Segmentation of Indoor Scenes [87.74952229507096]
本稿では,屋内シーンの3次元構造とセマンティックラベルを協調的に復元するリアルタイムオンライン視覚フレームワークを提案する。
列車時、ノイズの多い深度マップ、カメラ軌跡、および2Dセマンティックラベルを与えられたニューラルネットワークは、シーン空間に適切なセマンティックラベルでフレームの奥行きを融合させることを学習する。
論文 参考訳(メタデータ) (2021-08-11T14:29:01Z) - A parameter refinement method for Ptychography based on Deep Learning
concepts [55.41644538483948]
伝播距離、位置誤差、部分的コヒーレンスにおける粗いパラメトリゼーションは、しばしば実験の生存性を脅かす。
最新のDeep Learningフレームワークは、セットアップの不整合を自律的に補正するために使用され、ポチコグラフィーの再構築の質が向上する。
我々は,elettra シンクロトロン施設のツインミックビームラインで取得した合成データセットと実データの両方でシステムをテストした。
論文 参考訳(メタデータ) (2021-05-18T10:15:17Z) - SERV-CT: A disparity dataset from CT for validation of endoscopic 3D
reconstruction [8.448866668577946]
CT(SERV-CT)に基づく立体内視鏡再構成検証データセットを提案する。
SERV-CTデータセットは、内視鏡画像の大部分をカバーするスムーズな参照格差と深さを持つ外科的アプリケーションのための使いやすい立体的検証を提供します。
論文 参考訳(メタデータ) (2020-12-22T01:28:30Z) - 4D Spatio-Temporal Convolutional Networks for Object Position Estimation
in OCT Volumes [69.62333053044712]
3次元畳み込みニューラルネットワーク(CNN)は、単一のOCT画像を用いたマーカーオブジェクトのポーズ推定に有望な性能を示した。
我々は3次元CNNを4次元時間CNNに拡張し、マーカーオブジェクト追跡のための追加の時間情報の影響を評価する。
論文 参考訳(メタデータ) (2020-07-02T12:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。