論文の概要: SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation
- arxiv url: http://arxiv.org/abs/2603.06971v1
- Date: Sat, 07 Mar 2026 01:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.509427
- Title: SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation
- Title(参考訳): SurgCUT3R : 時間的3次元表現の連続的理解
- Authors: Kaiyuan Xu, Fangzhou Hong, Daniel Elson, Baoru Huang,
- Abstract要約: SurgCUT3Rは、統一的な3D再構成モデルを外科領域に適用する体系的なフレームワークである。
まず,公開ステレオ手術データセットを利用するデータ生成パイプラインを開発する。
第2に,擬似地下構造を幾何学的自己補正と組み合わせたハイブリッド型監視戦略を提案する。
第3に,長期にわたる手術映像のポーズドリフトを効果的に蓄積するために,2つの専門モデルを用いた階層型推論フレームワークを導入する。
- 参考スコア(独自算出の注目度): 20.17317715120012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing surgical scenes from monocular endoscopic video is critical for advancing robotic-assisted surgery. However, the application of state-of-the-art general-purpose reconstruction models is constrained by two key challenges: the lack of supervised training data and performance degradation over long video sequences. To overcome these limitations, we propose SurgCUT3R, a systematic framework that adapts unified 3D reconstruction models to the surgical domain. Our contributions are threefold. First, we develop a data generation pipeline that exploits public stereo surgical datasets to produce large-scale, metric-scale pseudo-ground-truth depth maps, effectively bridging the data gap. Second, we propose a hybrid supervision strategy that couples our pseudo-ground-truth with geometric self-correction to enhance robustness against inherent data imperfections. Third, we introduce a hierarchical inference framework that employs two specialized models to effectively mitigate accumulated pose drift over long surgical videos: one for global stability and one for local accuracy. Experiments on the SCARED and StereoMIS datasets demonstrate that our method achieves a competitive balance between accuracy and efficiency, delivering near state-of-the-art but substantially faster pose estimation and offering a practical and effective solution for robust reconstruction in surgical environments. Project page: https://chumo-xu.github.io/SurgCUT3R-ICRA26/.
- Abstract(参考訳): 単眼内視鏡画像からの手術シーンの再構築は,ロボット支援手術の進行に不可欠である。
しかし、最先端の汎用再構成モデルの適用は、教師付きトレーニングデータの欠如と長時間のビデオシーケンスの性能低下という2つの大きな課題によって制限されている。
これらの制約を克服するため,手術領域に統一的な3次元再構成モデルを適用するシステムフレームワークであるSurgCUT3Rを提案する。
私たちの貢献は3倍です。
まず,一般のステレオ手術用データセットを利用して,大規模でスケールの擬似地下深度マップを作成し,データギャップを効果的に埋めるデータ生成パイプラインを開発した。
第2に,疑似地下構造と幾何学的自己補正を組み合わせ,データ不完全性に対するロバスト性を高めるハイブリッド監視戦略を提案する。
第3に,長期手術ビデオにおける蓄積されたポーズドリフトを効果的に軽減するために,2つの専門モデルを用いた階層的推論フレームワークを導入する。
SCAREDおよびStereoMISデータセットを用いた実験により,本手法は精度と効率の競争的バランスを達成し,最先端に近いが極めて高速なポーズ推定を実現し,手術環境における堅牢な再建のための実用的で効果的なソリューションを提供する。
プロジェクトページ:https://chumo-xu.github.io/SurgCUT3R-ICRA26/。
関連論文リスト
- ERGO: Excess-Risk-Guided Optimization for High-Fidelity Monocular 3D Gaussian Splatting [63.138778159026934]
本稿では,ERGOと呼ばれる過度のリスク分解によって導かれる適応最適化フレームワークを提案する。
ERGOはビュー固有の過剰リスクを動的に推定し、最適化中の損失重みを適応的に調整する。
Google Scanned ObjectsデータセットとOmniObject3Dデータセットの実験は、既存の最先端メソッドよりもERGOの方が優れていることを示している。
論文 参考訳(メタデータ) (2026-02-10T20:44:43Z) - EndoSfM3D: Learning to 3D Reconstruct Any Endoscopic Surgery Scene using Self-supervised Foundation Model [2.8913847481700667]
内視鏡下手術シーンの3次元再構築は,シーン認識の向上,AR可視化の実現,画像誘導手術におけるコンテキスト認識意思決定支援に重要な役割を担っている。
内在キャリブレーションは、不安定性の制約や、連続ズームと望遠鏡回転を備えた特殊な内視鏡の使用によって妨げられる。
本稿では, 奥行き, ポーズ, 内在性予測に, 奥行きV2(DA2)モデルを適用することで, 内在的パラメータ推定を自己教師付き単眼深度推定フレームワークに統合する。
提案手法はSCAREDおよびC3VD公開データセット上で検証され,最近の状態と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2025-10-25T16:39:04Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Endo3R: Unified Online Reconstruction from Dynamic Monocular Endoscopic Video [35.241054116681426]
Endo3Rは、単眼手術ビデオからのオンラインスケール一貫性再構築のための統合された3D基盤モデルである。
我々のモデルは,オフライン最適化なしで,グローバルに整列したポイントマップ,スケール一貫性のあるビデオ深度,カメラパラメータを予測してタスクを統一する。
論文 参考訳(メタデータ) (2025-04-04T06:05:22Z) - Feature-EndoGaussian: Feature Distilled Gaussian Splatting in Surgical Deformable Scene Reconstruction [26.358467072736524]
3DGSの拡張であるFeature-EndoGaussian (FEG)を導入し、2Dセグメンテーションキューを3Dレンダリングに統合し、リアルタイムなセマンティックとシーン再構築を実現する。
FEGは先行法に比べて優れた性能(SSIMは0.97、PSNRは39.08、LPIPSは0.03)を達成している。
論文 参考訳(メタデータ) (2025-03-08T10:50:19Z) - A Review of 3D Reconstruction Techniques for Deformable Tissues in Robotic Surgery [8.909938295090827]
NeRFベースの技術は、暗黙的にシーンを再構築する能力に注目が集まっている。
一方、3D-GSは3Dガウシアンを明示的に使用し、NeRFの複雑なボリュームレンダリングの代替として2D平面に投影するシーンを表現している。
この研究は、最先端のSOTA(State-of-the-art)アプローチを探求し、レビューし、彼らのイノベーションと実装原則について議論する。
論文 参考訳(メタデータ) (2024-08-08T12:51:23Z) - Creating a Digital Twin of Spinal Surgery: A Proof of Concept [68.37190859183663]
手術デジタル化は、現実世界の手術の仮想レプリカを作成するプロセスである。
脊椎外科手術に応用した手術デジタル化のための概念実証(PoC)を提案する。
5台のRGB-Dカメラを外科医の動的3D再構成に、ハイエンドカメラを解剖学の3D再構成に、赤外線ステレオカメラを手術器具追跡に、レーザースキャナーを手術室の3D再構成とデータ融合に使用した。
論文 参考訳(メタデータ) (2024-03-25T13:09:40Z) - Domain adaptation strategies for 3D reconstruction of the lumbar spine using real fluoroscopy data [9.21828361691977]
本研究は整形外科手術における手術ナビゲーション導入における重要な障害に対処するものである。
これは、少数の蛍光画像から脊椎の3次元解剖モデルを生成するためのアプローチを示す。
これまでの合成データに基づく研究の精度に匹敵する84%のF1スコアを達成しました。
論文 参考訳(メタデータ) (2024-01-29T10:22:45Z) - Efficient Deformable Tissue Reconstruction via Orthogonal Neural Plane [58.871015937204255]
変形性組織を再建するための高速直交平面(Fast Orthogonal Plane)を導入する。
我々は外科手術を4Dボリュームとして概念化し、それらをニューラルネットワークからなる静的および動的フィールドに分解する。
この分解により4次元空間が増加し、メモリ使用量が減少し、最適化が高速化される。
論文 参考訳(メタデータ) (2023-12-23T13:27:50Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Volumetric Medical Image Segmentation: A 3D Deep Coarse-to-fine
Framework and Its Adversarial Examples [74.92488215859991]
本稿では,これらの課題に効果的に取り組むために,新しい3Dベースの粗粒度フレームワークを提案する。
提案した3Dベースのフレームワークは、3つの軸すべてに沿ってリッチな空間情報を活用できるため、2Dよりも大きなマージンで優れている。
我々は,3つのデータセット,NIH膵データセット,JHMI膵データセット,JHMI病理嚢胞データセットについて実験を行った。
論文 参考訳(メタデータ) (2020-10-29T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。