論文の概要: DepthPilot: From Controllability to Interpretability in Colonoscopy Video Generation
- arxiv url: http://arxiv.org/abs/2604.26232v1
- Date: Wed, 29 Apr 2026 02:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.22601
- Title: DepthPilot: From Controllability to Interpretability in Colonoscopy Video Generation
- Title(参考訳): DepthPilot: 大腸内視鏡映像生成における制御性から解釈性へ
- Authors: Junhu Fu, Ke Chen, Weidong Guo, Shuyu Liang, Jie Xu, Chen Ma, Kehao Wang, Shengli Lin, Zeju Li, Yuanyuan Wang, Yi Guo, Shuo Li,
- Abstract要約: 大腸内視鏡画像生成のための最初の解釈可能なフレームワークであるDepthPilotを提案する。
明示的な幾何学的グラウンドを達成するために、DepthPilot氏は、事前の分布アライメント戦略を考案した。
奥行き制約は、パラメータ効率の良い微調整によってバックボーン拡散に注入され、解剖学的な忠実さが保証される。
- 参考スコア(独自算出の注目度): 22.17232304282025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable medical video generation has achieved remarkable progress, but it still lacks interpretability, which requires the alignment of generated contents with physical priors and faithful clinical manifestations. To push the boundaries from mere controllability to interpretability, we propose DepthPilot, the first interpretable framework for colonoscopy video generation. This work takes a step toward trustworthy generation through two synergistic paradigms. To achieve explicit geometric grounding, DepthPilot devises a prior distribution alignment strategy, injecting depth constraints into the diffusion backbone via parameter-efficient fine-tuning to ensure anatomical fidelity. To enhance intrinsic nonlinear modeling under these geometric constraints, DepthPilot employs an adaptive spline denoising module, replacing fixed linear weights with learnable spline functions to capture complex spatio-temporal dynamics. Extensive evaluations across three public datasets and in-house clinical data confirm DepthPilot's robust ability to produce physically consistent videos. It achieves FID scores below 15 across all benchmarks and ranks first in clinician assessments, bridging the gap between "visually realistic" and "clinically interpretable". Moreover, DepthPilot-generated videos are expected to enable reliable 3D reconstruction, facilitating surgical navigation and blind region identification, and serve as a foundation toward the colorectal world model.
- Abstract(参考訳): コントロール可能な医用ビデオ生成は目覚ましい進歩を遂げてきたが、それでも解釈可能性に欠けており、生成したコンテンツを物理的先行と整合させ、忠実な臨床症状を必要とする。
大腸内視鏡画像生成のための最初の解釈可能なフレームワークであるDepthPilotを提案する。
この研究は、2つの相乗的パラダイムを通じて信頼に値する世代に向かって一歩前進する。
明示的な幾何学的グラウンド化を実現するため、DepthPilotは従来の分布アライメント戦略を考案し、パラメータ効率の微調整により拡散バックボーンに深さ制約を注入し、解剖学的忠実性を確保する。
これらの幾何学的制約の下で固有の非線形モデリングを強化するために、DepthPilotは適応的なスプラインデノナイジングモジュールを使用し、固定された線形重みを学習可能なスプライン関数に置き換え、複雑な時空間力学を捉える。
3つの公開データセットと社内臨床データにわたる広範囲な評価は、DepthPilotが物理的に一貫したビデオを生成する堅牢な能力を確認している。
すべてのベンチマークでFIDスコアが15未満に達し、臨床評価では第1位となり、「視覚的に現実的」と「クリニック的に解釈可能な」のギャップを埋める。
さらに、DepthPilotで生成されたビデオは、信頼性の高い3D再構成を可能にし、手術ナビゲーションと盲点識別を容易にし、大腸癌の世界モデルに向けた基盤として機能することが期待されている。
関連論文リスト
- ViPS: Video-informed Pose Spaces for Auto-Rigged Meshes [55.32681167870698]
Video-informed Pose Spaces (ViPS)は、自動リップメッシュのための有効な調律の潜時分布を検出するフィードフォワードフレームワークである。
ViPSは生成ビデオの先行値を所定のリグパラメータ化上の普遍分布に転送する。
評価の結果,VPSは,合成アーティストが作成した4Dデータに基づいて訓練した最先端の手法の性能と,妥当性と多様性の両面で一致していることがわかった。
論文 参考訳(メタデータ) (2026-04-19T21:21:11Z) - DVD: Deterministic Video Depth Estimation with Generative Priors [87.46576463137801]
DVDは、事前訓練されたビデオ拡散モデルをシングルパス深度回帰器に適応させる最初のフレームワークである。
DVDは、最先端のゼロショットのパフォーマンスをベンチマークで達成する。
私たちはパイプラインを完全にリリースし、オープンソースコミュニティに利益をもたらすために、SOTAビデオ深度推定のためのトレーニングスイート全体を提供しています。
論文 参考訳(メタデータ) (2026-03-12T17:58:06Z) - MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - Preoperative-to-intraoperative Liver Registration for Laparoscopic Surgery via Latent-Grounded Correspondence Constraints [51.7011449975586]
Land-Regは変形可能な登録フレームワークで、潜伏した2D-3Dのランドマーク対応を学習する。
厳格な登録のために、Land-Regはクロスモーダルラテントアライメントモジュールを採用している。
類似性マッチングを持つ不確実なオーバーラップランドマーク検出器を提案し, 明確な2D-3Dランドマーク対応を強く推定する。
論文 参考訳(メタデータ) (2026-03-02T10:44:03Z) - Extending 2D foundational DINOv3 representations to 3D segmentation of neonatal brain MR images [3.186130813218338]
グローバルMRIボリュームは、重複しない3Dウィンドウまたはサブキューブに分解され、それぞれが凍結した高忠実度機能の上に構築された別個のデコードアームを介して処理される。
提案手法は、1つの3Dウィンドウに対してDiceスコア0.65を達成する。
論文 参考訳(メタデータ) (2026-02-27T12:16:21Z) - GRAFNet: Multiscale Retinal Processing via Guided Cortical Attention Feedback for Enhancing Medical Image Polyp Segmentation [6.834321209531585]
本稿では,人間の視覚システムの階層構造を模倣する生物学的にインスパイアされたアーキテクチャであるGRAFNetを提案する。
GRAFNetは,(1)方向調整された皮質ニューロンをポリプ境界に模倣するガイド非対称注意モジュール(GAAM),(2)平行多機能解析のために網膜神経節細胞経路を複製するマルチスケール網膜モジュール(MSRM),(3)反復精製に予測符号化を適用するガイド非対称注意フィードバックモジュール(GCAFM)の3つの重要なモジュールを統合する。
論文 参考訳(メタデータ) (2026-02-15T17:29:37Z) - EndoStreamDepth: Temporally Consistent Monocular Depth Estimation for Endoscopic Video Streams [6.300100115696222]
本研究では,内視鏡的ビデオストリームのための単眼深度推定フレームワークであるEndoStreamDepthを紹介する。
フレームごとに鋭い解剖学的境界を持つ正確な深度マップ、フレーム間の時間的に一貫した予測、リアルタイムスループットを提供する。
論文 参考訳(メタデータ) (2025-12-20T00:53:30Z) - BronchOpt : Vision-Based Pose Optimization with Fine-Tuned Foundation Models for Accurate Bronchoscopy Navigation [6.915058920280426]
術中内視鏡視と術前CT解剖の2D-3D登録のための視覚ベースのポーズ最適化フレームワークを提案する。
細調整されたモダリティおよびドメイン不変エンコーダは、実際の内視鏡的RGBフレームとCTレンダリング深度マップとの直接的な類似性を実現する。
本モデルでは, 平均翻訳誤差2.65mm, 回転誤差0.19radを実現し, 高精度かつ安定な局所化を示す。
論文 参考訳(メタデータ) (2025-11-12T15:58:05Z) - Landmark-Free Preoperative-to-Intraoperative Registration in Laparoscopic Liver Resection [50.388465935739376]
術前の3Dモデルを術中2Dフレームにオーバーレイすることで肝臓の空間解剖を明瞭に把握し,より高い手術成功率を達成することができる。
既存の登録法は解剖学的ランドマークに大きく依存しており、2つの大きな制限に直面している。
本稿では,効果的な自己教師型学習を生かした,目覚ましくない術前・術中登録フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T14:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。