論文の概要: LightEndoStereo: A Real-time Lightweight Stereo Matching Method for Endoscopy Images
- arxiv url: http://arxiv.org/abs/2503.00731v1
- Date: Sun, 02 Mar 2025 05:06:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:59.127451
- Title: LightEndoStereo: A Real-time Lightweight Stereo Matching Method for Endoscopy Images
- Title(参考訳): LightEndoStereo:内視鏡画像のリアルタイムステレオマッチング法
- Authors: Yang Ding, Can Han, Sijia Du, Yaqi Wang, Dahong Qian,
- Abstract要約: LightEndoStereoは、内視鏡画像のための軽量なリアルタイムステレオマッチング手法である。
提案手法はSCARED と SERV-CT のデータセットを用いて評価し,最先端のマッチング精度と42FPSのリアルタイム推論速度を実現した。
- 参考スコア(独自算出の注目度): 5.496434098222321
- License:
- Abstract: Real-time acquisition of accurate depth of scene is essential for automated robotic minimally invasive surgery, and stereo matching with binocular endoscopy can generate such depth. However, existing algorithms struggle with ambiguous tissue boundaries and real-time performance in prevalent high-resolution endoscopic scenes. We propose LightEndoStereo, a lightweight real-time stereo matching method for endoscopic images. We introduce a 3D Mamba Coordinate Attention module to streamline the cost aggregation process by generating position-sensitive attention maps and capturing long-range dependencies across spatial dimensions using the Mamba block. Additionally, we introduce a High-Frequency Disparity Optimization module to refine disparity estimates at tissue boundaries by enhancing high-frequency information in the wavelet domain. Our method is evaluated on the SCARED and SERV-CT datasets, achieving state-of-the-art matching accuracy and a real-time inference speed of 42 FPS. The code is available at https://github.com/Sonne-Ding/LightEndoStereo.
- Abstract(参考訳): ロボットによる低侵襲手術の自動化には,シーンの正確な深度をリアルタイムに取得することが不可欠であり,両眼内視鏡とのステレオマッチングにより,そのような深度を発生させることができる。
しかし、既存のアルゴリズムは、高解像度の内視鏡シーンにおいて、あいまいな組織の境界とリアルタイムのパフォーマンスに苦慮している。
内視鏡画像のための軽量リアルタイムステレオマッチング法LightEndoStereoを提案する。
本研究では,3次元マンバ座標アテンションモジュールを導入し,位置感性アテンションマップを生成し,マンバブロックを用いて空間次元の長距離依存性を捉えることで,コストアグリゲーションプロセスの合理化を図る。
さらに,ウェーブレット領域の高周波情報を高め,組織境界における分散度推定の精度を高めるために,高周波分散度最適化モジュールを導入する。
提案手法はSCARED と SERV-CT のデータセットを用いて評価し,最先端のマッチング精度と42FPSのリアルタイム推論速度を実現した。
コードはhttps://github.com/Sonne-Ding/LightEndoStereoで入手できる。
関連論文リスト
- Advancing Dense Endoscopic Reconstruction with Gaussian Splatting-driven Surface Normal-aware Tracking and Mapping [12.027762278121052]
Endo-2DTAMは2次元ガウススプラッティング(2DGS)を用いたリアルタイム内視鏡SLAMシステムである
私たちのロバストなトラッキングモジュールは、ポイントツーポイントとポイントツープレーン距離のメトリクスを組み合わせています。
マッピングモジュールは, 通常の整合性および深さ歪みを利用して表面再構成品質を向上する。
論文 参考訳(メタデータ) (2025-01-31T17:15:34Z) - Deep Sylvester Posterior Inference for Adaptive Compressed Sensing in Ultrasound Imaging [16.553626039240903]
必要なスキャンラインの数を最小化することで、フレームレート、視野、エネルギー効率、データ転送速度を大幅に向上させることができる。
本稿では,固有情報ゲインをその場で最大化する適応サブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T14:37:14Z) - Stereo-Depth Fusion through Virtual Pattern Projection [37.519762078762575]
本稿では,新しい汎用ステレオ・ディープデータ融合パラダイムを提案する。
これは、信頼できない物理パターンプロジェクターを奥行きセンサーに置き換えることで、アクティブなステレオ原理を模倣する。
従来のステレオカメラで取得した左右の画像に、シーン形状と整合した仮想パターンを投影する。
論文 参考訳(メタデータ) (2024-06-06T17:59:58Z) - MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。
我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。
また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文 参考訳(メタデータ) (2024-04-01T04:57:41Z) - AiAReSeg: Catheter Detection and Segmentation in Interventional
Ultrasound using Transformers [75.20925220246689]
血管内手術は、電離放射線を用いてカテーテルと血管を可視化するFluoroscopyの黄金標準を用いて行われる。
本研究では、最先端機械学習トランスフォーマアーキテクチャを応用して、軸干渉超音波画像シーケンス中のカテーテルを検出し、セグメント化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-25T19:34:12Z) - Self-Supervised Depth Estimation in Laparoscopic Image using 3D
Geometric Consistency [7.902636435901286]
立体対に隠された3次元構造情報を利用する自己教師型深度推定器M3Depthを提案する。
提案手法は,公開データセットと新たに取得したデータセットの両方において,従来の自己教師型アプローチよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-08-17T17:03:48Z) - Deep Learning for Ultrasound Beamforming [120.12255978513912]
受信した超音波エコーを空間画像領域にマッピングするビームフォーミングは、超音波画像形成チェーンの心臓に位置する。
現代の超音波イメージングは、強力なデジタル受信チャネル処理の革新に大きく依存している。
ディープラーニング手法は、デジタルビームフォーミングパイプラインにおいて魅力的な役割を果たす。
論文 参考訳(メタデータ) (2021-09-23T15:15:21Z) - A Real-Time Online Learning Framework for Joint 3D Reconstruction and
Semantic Segmentation of Indoor Scenes [87.74952229507096]
本稿では,屋内シーンの3次元構造とセマンティックラベルを協調的に復元するリアルタイムオンライン視覚フレームワークを提案する。
列車時、ノイズの多い深度マップ、カメラ軌跡、および2Dセマンティックラベルを与えられたニューラルネットワークは、シーン空間に適切なセマンティックラベルでフレームの奥行きを融合させることを学習する。
論文 参考訳(メタデータ) (2021-08-11T14:29:01Z) - A parameter refinement method for Ptychography based on Deep Learning
concepts [55.41644538483948]
伝播距離、位置誤差、部分的コヒーレンスにおける粗いパラメトリゼーションは、しばしば実験の生存性を脅かす。
最新のDeep Learningフレームワークは、セットアップの不整合を自律的に補正するために使用され、ポチコグラフィーの再構築の質が向上する。
我々は,elettra シンクロトロン施設のツインミックビームラインで取得した合成データセットと実データの両方でシステムをテストした。
論文 参考訳(メタデータ) (2021-05-18T10:15:17Z) - SERV-CT: A disparity dataset from CT for validation of endoscopic 3D
reconstruction [8.448866668577946]
CT(SERV-CT)に基づく立体内視鏡再構成検証データセットを提案する。
SERV-CTデータセットは、内視鏡画像の大部分をカバーするスムーズな参照格差と深さを持つ外科的アプリケーションのための使いやすい立体的検証を提供します。
論文 参考訳(メタデータ) (2020-12-22T01:28:30Z) - 4D Spatio-Temporal Convolutional Networks for Object Position Estimation
in OCT Volumes [69.62333053044712]
3次元畳み込みニューラルネットワーク(CNN)は、単一のOCT画像を用いたマーカーオブジェクトのポーズ推定に有望な性能を示した。
我々は3次元CNNを4次元時間CNNに拡張し、マーカーオブジェクト追跡のための追加の時間情報の影響を評価する。
論文 参考訳(メタデータ) (2020-07-02T12:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。