論文の概要: Endo3R: Unified Online Reconstruction from Dynamic Monocular Endoscopic Video
- arxiv url: http://arxiv.org/abs/2504.03198v1
- Date: Fri, 04 Apr 2025 06:05:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:19.881402
- Title: Endo3R: Unified Online Reconstruction from Dynamic Monocular Endoscopic Video
- Title(参考訳): Endo3R:ダイナミックモノクロ内視鏡によるオンライン再構築
- Authors: Jiaxin Guo, Wenzhen Dong, Tianyu Huang, Hao Ding, Ziyi Wang, Haomin Kuang, Qi Dou, Yun-Hui Liu,
- Abstract要約: Endo3Rは、単眼手術ビデオからのオンラインスケール一貫性再構築のための統合された3D基盤モデルである。
我々のモデルは,オフライン最適化なしで,グローバルに整列したポイントマップ,スケール一貫性のあるビデオ深度,カメラパラメータを予測してタスクを統一する。
- 参考スコア(独自算出の注目度): 35.241054116681426
- License:
- Abstract: Reconstructing 3D scenes from monocular surgical videos can enhance surgeon's perception and therefore plays a vital role in various computer-assisted surgery tasks. However, achieving scale-consistent reconstruction remains an open challenge due to inherent issues in endoscopic videos, such as dynamic deformations and textureless surfaces. Despite recent advances, current methods either rely on calibration or instrument priors to estimate scale, or employ SfM-like multi-stage pipelines, leading to error accumulation and requiring offline optimization. In this paper, we present Endo3R, a unified 3D foundation model for online scale-consistent reconstruction from monocular surgical video, without any priors or extra optimization. Our model unifies the tasks by predicting globally aligned pointmaps, scale-consistent video depths, and camera parameters without any offline optimization. The core contribution of our method is expanding the capability of the recent pairwise reconstruction model to long-term incremental dynamic reconstruction by an uncertainty-aware dual memory mechanism. The mechanism maintains history tokens of both short-term dynamics and long-term spatial consistency. Notably, to tackle the highly dynamic nature of surgical scenes, we measure the uncertainty of tokens via Sampson distance and filter out tokens with high uncertainty. Regarding the scarcity of endoscopic datasets with ground-truth depth and camera poses, we further devise a self-supervised mechanism with a novel dynamics-aware flow loss. Abundant experiments on SCARED and Hamlyn datasets demonstrate our superior performance in zero-shot surgical video depth prediction and camera pose estimation with online efficiency. Project page: https://wrld.github.io/Endo3R/.
- Abstract(参考訳): 単眼手術映像からの3Dシーンの再構成は、外科医の知覚を高め、様々なコンピュータ支援手術作業において重要な役割を果たす。
しかし、ダイナミックな変形やテクスチャレス表面といった内視鏡的ビデオに固有の問題があるため、スケール一貫性のある再構成を実現することは依然としてオープンな課題である。
近年の進歩にもかかわらず、現在の手法はキャリブレーションや計器に頼ってスケールを推定したり、SfMのようなマルチステージパイプラインを使ったりすることで、エラーの蓄積とオフライン最適化が要求される。
本稿では,単眼手術ビデオからのオンラインスケール一貫性再構築のための3次元基盤モデルであるEndo3Rについて述べる。
我々のモデルは,オフライン最適化なしで,グローバルに整列したポイントマップ,スケール一貫性のあるビデオ深度,カメラパラメータを予測してタスクを統一する。
提案手法のコアコントリビューションは、最近のペアワイズ再構築モデルの能力を、不確実性を考慮した二重記憶機構による長期的動的再構成に拡張することである。
このメカニズムは、短期力学と長期空間一貫性の両方の履歴トークンを保持する。
特に,手術シーンの非常にダイナミックな性質に対処するために,サンプソン距離によるトークンの不確実性を測定し,不確実性の高いトークンをフィルタリングする。
地中深度とカメラポーズによる内視鏡的データセットの不足について,新しいダイナミックス認識フローロスを用いた自己監督機構を考案した。
SCARED と Hamlyn データセットの冗長な実験は、ゼロショットの手術ビデオ深度予測とオンライン効率によるカメラポーズ推定において、我々の優れたパフォーマンスを実証している。
プロジェクトページ: https://wrld.github.io/Endo3R/。
関連論文リスト
- Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera [49.82535393220003]
Dyn-HaMRは、野生のダイナミックカメラで撮影されたモノクロビデオから4Dグローバルハンドモーションを再構築する最初のアプローチである。
提案手法は,4次元メッシュ・リカバリにおいて最先端の手法を著しく上回ることを示す。
これにより、動くカメラでモノクロビデオから手の動きを復元するための新しいベンチマークが確立される。
論文 参考訳(メタデータ) (2024-12-17T12:43:10Z) - SurgicalGS: Dynamic 3D Gaussian Splatting for Accurate Robotic-Assisted Surgical Scene Reconstruction [18.074890506856114]
幾何学的精度を向上した手術シーン再構築のための動的3次元ガウススプレイティングフレームワークであるStagementGSを提案する。
提案手法は,まず奥行き先を用いてガウス点雲を初期化し,深度変化の大きい画素を識別するために二元運動マスクを用い,フレーム間の深度マップから点雲を融合して初期化する。
フレキシブル変形モデルを用いて動的シーンを表現し、教師なし深度スムースネス制約とともに正規化深度正規化損失を導入し、より正確な幾何再構成を実現する。
論文 参考訳(メタデータ) (2024-10-11T22:46:46Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Online 3D reconstruction and dense tracking in endoscopic videos [5.667206318889122]
立体内視鏡画像データからの3次元シーン再構成は外科手術の進行に不可欠である。
外科的シーン理解と介入支援を目的としたオンライン3次元シーン再構築と追跡のためのオンラインフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-09T19:58:42Z) - SurgicalGaussian: Deformable 3D Gaussians for High-Fidelity Surgical Scene Reconstruction [17.126895638077574]
内視鏡的ビデオにおける変形性組織の動的再構成は、ロボット支援手術の鍵となる技術である。
NeRFは、シーン内のオブジェクトの複雑な詳細をキャプチャするのに苦労します。
我々のネットワークは、レンダリング品質、レンダリング速度、GPU使用率など、多くの面で既存の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-06T09:31:30Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - SMORE: Simulataneous Map and Object REconstruction [66.66729715211642]
本稿では,LiDARから大規模都市景観を動的に再現する手法を提案する。
我々は、世界が厳格に動く物体と背景に分解される動的なシーンの構成モデルを総合的に捉え、最適化する。
論文 参考訳(メタデータ) (2024-06-19T23:53:31Z) - Endo-4DGS: Endoscopic Monocular Scene Reconstruction with 4D Gaussian Splatting [12.333523732756163]
動的シーン再構築は、下流の作業を大幅に強化し、手術結果を改善することができる。
NeRFベースの手法は、最近、シーンを再構築する異常な能力で有名になった。
本研究では,リアルタイムな内視鏡的動的再構成手法であるEndo-4DGSを提案する。
論文 参考訳(メタデータ) (2024-01-29T18:55:29Z) - EndoGS: Deformable Endoscopic Tissues Reconstruction with Gaussian Splatting [20.848027172010358]
変形性内視鏡組織再建に対する Gaussian Splatting 法を施行した。
提案手法は,動的シーンを扱うための変形場,空間時空間マスクを用いた深度誘導型監視,表面整列正規化項を含む。
結果として、EndoGSは単一視点ビデオ、推定深度マップ、ラベル付きツールマスクから高品質な変形可能な内視鏡組織を再構成しレンダリングする。
論文 参考訳(メタデータ) (2024-01-21T16:14:04Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Limited-angle tomographic reconstruction of dense layered objects by
dynamical machine learning [68.9515120904028]
強い散乱準透明物体の有限角トモグラフィーは困難で、非常に不適切な問題である。
このような問題の状況を改善することにより、アーティファクトの削減には、事前の定期化が必要である。
我々は,新しい分割畳み込みゲート再帰ユニット(SC-GRU)をビルディングブロックとして,リカレントニューラルネットワーク(RNN)アーキテクチャを考案した。
論文 参考訳(メタデータ) (2020-07-21T11:48:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。