論文の概要: EndoStreamDepth: Temporally Consistent Monocular Depth Estimation for Endoscopic Video Streams
- arxiv url: http://arxiv.org/abs/2512.18159v1
- Date: Sat, 20 Dec 2025 00:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.211336
- Title: EndoStreamDepth: Temporally Consistent Monocular Depth Estimation for Endoscopic Video Streams
- Title(参考訳): EndoStreamDepth: 経時的に一貫性のある単眼深度推定による内視鏡的ビデオストリームの作成
- Authors: Hao Li, Daiwei Lu, Jiacheng Wang, Robert J. Webster, Ipek Oguz,
- Abstract要約: 本研究では,内視鏡的ビデオストリームのための単眼深度推定フレームワークであるEndoStreamDepthを紹介する。
フレームごとに鋭い解剖学的境界を持つ正確な深度マップ、フレーム間の時間的に一貫した予測、リアルタイムスループットを提供する。
- 参考スコア(独自算出の注目度): 6.300100115696222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents EndoStreamDepth, a monocular depth estimation framework for endoscopic video streams. It provides accurate depth maps with sharp anatomical boundaries for each frame, temporally consistent predictions across frames, and real-time throughput. Unlike prior work that uses batched inputs, EndoStreamDepth processes individual frames with a temporal module to propagate inter-frame information. The framework contains three main components: (1) a single-frame depth network with endoscopy-specific transformation to produce accurate depth maps, (2) multi-level Mamba temporal modules that leverage inter-frame information to improve accuracy and stabilize predictions, and (3) a hierarchical design with comprehensive multi-scale supervision, where complementary loss terms jointly improve local boundary sharpness and global geometric consistency. We conduct comprehensive evaluations on two publicly available colonoscopy depth estimation datasets. Compared to state-of-the-art monocular depth estimation methods, EndoStreamDepth substantially improves performance, and it produces depth maps with sharp, anatomically aligned boundaries, which are essential to support downstream tasks such as automation for robotic surgery. The code is publicly available at https://github.com/MedICL-VU/EndoStreamDepth
- Abstract(参考訳): 本研究では,内視鏡的ビデオストリームのための単眼深度推定フレームワークであるEndoStreamDepthを紹介する。
フレーム毎に鋭い解剖学的境界を持つ正確な深度マップ、フレーム間の時間的に一貫した予測、リアルタイムスループットを提供する。
バッチ入力を使用した以前の作業とは異なり、EndoStreamDepthは個々のフレームを時間モジュールで処理し、フレーム間の情報を伝達する。
本フレームワークは,(1)内視鏡固有の変換で正確な深度マップを生成する単一フレーム深度ネットワーク,(2)フレーム間情報を利用して精度を向上し,予測を安定化するマルチレベルマンバ時間モジュール,(3)局所境界のシャープネスと大域的幾何整合性を相補的損失項で相補的に改善する包括的マルチスケール監視を備えた階層的設計,の3つの構成要素を含む。
本研究では,2種類の大腸内視鏡的深度推定データセットについて包括的な評価を行った。
最先端の単眼深度推定法と比較して、EndoStreamDepthは性能を大幅に向上させ、ロボット手術の自動化などの下流タスクをサポートするために欠かせない、鋭く解剖学的に整合した深度マップを生成する。
コードはhttps://github.com/MedICL-VU/EndoStreamDepthで公開されている。
関連論文リスト
- Video Depth Propagation [54.523028170425256]
既存の手法は単純なフレーム・バイ・フレームの単分子モデルに依存しており、時間的矛盾と不正確な結果をもたらす。
本稿では,オンラインビデオパイプラインを効果的に活用し,深い特徴伝達を行うVeloDepthを提案する。
構造的に時間的整合性を強制し, 連続するフレーム間に安定した深さ予測を行い, 効率を向上する。
論文 参考訳(メタデータ) (2025-12-11T15:08:37Z) - Unifying Scale-Aware Depth Prediction and Perceptual Priors for Monocular Endoscope Pose Estimation and Tissue Reconstruction [3.251946340142663]
単分子内視鏡組織再建のための統一的枠組みを提示する。
スケール認識深度予測と時間的に制約された知覚の洗練を統合する。
HEVDとSCAREDの評価は、アブレーションと比較分析によって、最先端の手法よりもフレームワークの堅牢性と優位性を示している。
論文 参考訳(メタデータ) (2025-08-15T07:41:17Z) - REMOTE: Real-time Ego-motion Tracking for Various Endoscopes via Multimodal Visual Feature Learning [0.7499722271664147]
内視鏡のためのリアルタイムエゴモーショントラッキングを実現するための新しいフレームワークを提案する。
相対的なポーズ予測を行うために,マルチモーダル視覚特徴学習ネットワークを提案する。
内視鏡の絶対的なポーズは相対的なポーズに基づいて計算される。
論文 参考訳(メタデータ) (2025-01-30T03:58:41Z) - DD-VNB: A Depth-based Dual-Loop Framework for Real-time Visually Navigated Bronchoscopy [5.8722774441994074]
リアルタイムビジュアルナビゲート気管支鏡(DD-VNB)のためのDepth-based Dual-Loopフレームワークを提案する。
DD-VNBフレームワークは、深さ推定とデュアルループローカライゼーションという2つの重要なモジュールを統合している。
患者からのファントムデータとin-vivoデータを用いた実験により,本フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-03-04T02:29:02Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - Self-Supervised Depth Estimation in Laparoscopic Image using 3D
Geometric Consistency [7.902636435901286]
立体対に隠された3次元構造情報を利用する自己教師型深度推定器M3Depthを提案する。
提案手法は,公開データセットと新たに取得したデータセットの両方において,従来の自己教師型アプローチよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-08-17T17:03:48Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Deep Two-View Structure-from-Motion Revisited [83.93809929963969]
2次元構造移動(SfM)は3次元再構成と視覚SLAMの基礎となる。
古典パイプラインの適切性を活用することで,深部2視点sfmの問題を再検討することを提案する。
本手法は,1)2つのフレーム間の密対応を予測する光フロー推定ネットワーク,2)2次元光フロー対応から相対カメラポーズを計算する正規化ポーズ推定モジュール,3)エピポーラ幾何を利用して探索空間を縮小し,密対応を洗練し,相対深度マップを推定するスケール不変深さ推定ネットワークからなる。
論文 参考訳(メタデータ) (2021-04-01T15:31:20Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。