論文の概要: ColonCrafter: A Depth Estimation Model for Colonoscopy Videos Using Diffusion Priors
- arxiv url: http://arxiv.org/abs/2509.13525v1
- Date: Tue, 16 Sep 2025 20:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.647527
- Title: ColonCrafter: A Depth Estimation Model for Colonoscopy Videos Using Diffusion Priors
- Title(参考訳): ColonCrafter: 拡散プリミティブを用いた大腸内視鏡画像の深さ推定モデル
- Authors: Romain Hardy, Tyler Berzin, Pranav Rajpurkar,
- Abstract要約: ColonCrafterは拡散に基づく深度推定モデルであり、単眼の大腸内視鏡ビデオから時間的に一貫した深度マップを生成する。
本手法は, 時間的に一貫した深度マップを生成するために, 合成大腸内視鏡の配列から頑健な幾何学的先行を学習する。
- 参考スコア(独自算出の注目度): 1.9437590375121516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Three-dimensional (3D) scene understanding in colonoscopy presents significant challenges that necessitate automated methods for accurate depth estimation. However, existing depth estimation models for endoscopy struggle with temporal consistency across video sequences, limiting their applicability for 3D reconstruction. We present ColonCrafter, a diffusion-based depth estimation model that generates temporally consistent depth maps from monocular colonoscopy videos. Our approach learns robust geometric priors from synthetic colonoscopy sequences to generate temporally consistent depth maps. We also introduce a style transfer technique that preserves geometric structure while adapting real clinical videos to match our synthetic training domain. ColonCrafter achieves state-of-the-art zero-shot performance on the C3VD dataset, outperforming both general-purpose and endoscopy-specific approaches. Although full trajectory 3D reconstruction remains a challenge, we demonstrate clinically relevant applications of ColonCrafter, including 3D point cloud generation and surface coverage assessment.
- Abstract(参考訳): 大腸内視鏡における3次元3次元シーン理解は, 正確な深度推定に自動手法を必要とする重要な課題を提示する。
しかし、既存の内視鏡の深度推定モデルは、ビデオシーケンス間の時間的一貫性に苦慮し、3次元再構成への適用性を制限している。
単眼大腸内視鏡画像から時間的に一貫した深度マップを生成する拡散型深度推定モデルであるColonCrafterを提案する。
本手法は, 時間的に一貫した深度マップを生成するために, 合成大腸内視鏡の配列から頑健な幾何学的先行を学習する。
また,我々の合成トレーニング領域に適合する実際の臨床ビデオを適用しながら,幾何学的構造を保ったスタイル転送手法も導入した。
ColonCrafterは、C3VDデータセット上で最先端のゼロショットのパフォーマンスを達成し、汎用性と内視鏡固有のアプローチの両方を上回っている。
完全な軌道3D再構成は依然として課題であるが、3Dポイントクラウド生成や表面カバレッジアセスメントを含む臨床応用を実証する。
関連論文リスト
- C3VDv2 -- Colonoscopy 3D video dataset with enhanced realism [1.1531098736643364]
本稿では,高精細3Dビデオデータセットの第2版(v2)であるC3VDv2を紹介する。
計169,371フレームの192の動画は、60のユニークな高忠実度シリコーン大腸ファントムセグメントで撮影された。
消化器科医が取得した8つのシミュレートされた大腸内視鏡ビデオには、真実のポーズが提供されている。
データセットには、質的評価のための大腸変形を備えた15のビデオが含まれている。
論文 参考訳(メタデータ) (2025-06-30T17:29:06Z) - Learning to Efficiently Adapt Foundation Models for Self-Supervised Endoscopic 3D Scene Reconstruction from Any Cameras [41.985581990753765]
本稿では,内視鏡的シーン再構築のための統合フレームワークであるEndo3DACを紹介する。
我々は、深度マップ、相対ポーズ、カメラ固有のパラメータを同時に推定できる統合ネットワークを設計する。
4つの内視鏡的データセットに対する実験により、Endo3DACは他の最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-03-20T07:49:04Z) - Align3R: Aligned Monocular Depth Estimation for Dynamic Videos [50.28715151619659]
動的ビデオの時間的一貫した深度マップを推定するために,Align3Rと呼ばれる新しいビデオ深度推定法を提案する。
我々のキーとなる考え方は、最近のDUSt3Rモデルを用いて、異なる時間ステップの単分子深度マップを整列させることである。
実験により、Align3Rは一貫したビデオ深度を推定し、カメラはベースライン法よりも優れた性能を持つ単眼ビデオのポーズを示す。
論文 参考訳(メタデータ) (2024-12-04T07:09:59Z) - ToDER: Towards Colonoscopy Depth Estimation and Reconstruction with Geometry Constraint Adaptation [67.22294293695255]
そこで本稿では,ToDERという双方向適応アーキテクチャを用いて,高精度な深度推定を行う新しいパイプラインを提案する。
以上の結果から,本手法は実写および合成大腸内視鏡ビデオの深度マップを精度良く予測できることが示唆された。
論文 参考訳(メタデータ) (2024-07-23T14:24:26Z) - Endora: Video Generation Models as Endoscopy Simulators [53.72175969751398]
本稿では,臨床内視鏡シーンをシミュレートする医用ビデオを作成するための革新的な手法であるモデルを紹介する。
また、ビデオ生成モデルを用いた内視鏡シミュレーションのための最初の公開ベンチマークを開拓した。
Endoraは、臨床内視鏡研究のための生成AIの展開において、注目すべきブレークスルーとなる。
論文 参考訳(メタデータ) (2024-03-17T00:51:59Z) - DreaMo: Articulated 3D Reconstruction From A Single Casual Video [59.87221439498147]
対象者の視界が不完全である単一かつカジュアルに捉えたインターネットビデオから3次元形状の連続的再構成について検討した。
DreaMoは、ノベルビューレンダリング、詳細な形状復元、骨格生成において有望な品質を示している。
論文 参考訳(メタデータ) (2023-12-05T09:47:37Z) - Multi-task learning with cross-task consistency for improved depth
estimation in colonoscopy [0.2995885872626565]
我々は、共有エンコーダと2つのデコーダ、すなわち表面正規デコーダと深度推定器を備えた新しいマルチタスク学習(MTL)アプローチを開発する。
比較誤差は14.17%、$delta_1$精度は10.4%改善した。
論文 参考訳(メタデータ) (2023-11-30T16:13:17Z) - ColDE: A Depth Estimation Framework for Colonoscopy Reconstruction [27.793186578742088]
本研究では,大腸内視鏡データの特別な課題に対処するために,一連のトレーニング損失を設計した。
ColDEという名前の自己監督型フレームワークは、十分なトレーニング損失を伴って、大腸内視鏡データのより詳細なマップを生成することができる。
論文 参考訳(メタデータ) (2021-11-19T04:44:27Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。