論文の概要: BronchOpt : Vision-Based Pose Optimization with Fine-Tuned Foundation Models for Accurate Bronchoscopy Navigation
- arxiv url: http://arxiv.org/abs/2511.09443v1
- Date: Thu, 13 Nov 2025 01:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.572591
- Title: BronchOpt : Vision-Based Pose Optimization with Fine-Tuned Foundation Models for Accurate Bronchoscopy Navigation
- Title(参考訳): BronchOpt : 精密気管支鏡ナビゲーションのための微調整ファンデーションモデルを用いた視覚型ポース最適化
- Authors: Hongchao Shu, Roger D. Soberanis-Mukul, Jiru Xu, Hao Ding, Morgan Ringel, Mali Shen, Saif Iftekar Sayed, Hedyeh Rafii-Tari, Mathias Unberath,
- Abstract要約: 術中内視鏡視と術前CT解剖の2D-3D登録のための視覚ベースのポーズ最適化フレームワークを提案する。
細調整されたモダリティおよびドメイン不変エンコーダは、実際の内視鏡的RGBフレームとCTレンダリング深度マップとの直接的な類似性を実現する。
本モデルでは, 平均翻訳誤差2.65mm, 回転誤差0.19radを実現し, 高精度かつ安定な局所化を示す。
- 参考スコア(独自算出の注目度): 6.915058920280426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate intra-operative localization of the bronchoscope tip relative to patient anatomy remains challenging due to respiratory motion, anatomical variability, and CT-to-body divergence that cause deformation and misalignment between intra-operative views and pre-operative CT. Existing vision-based methods often fail to generalize across domains and patients, leading to residual alignment errors. This work establishes a generalizable foundation for bronchoscopy navigation through a robust vision-based framework and a new synthetic benchmark dataset that enables standardized and reproducible evaluation. We propose a vision-based pose optimization framework for frame-wise 2D-3D registration between intra-operative endoscopic views and pre-operative CT anatomy. A fine-tuned modality- and domain-invariant encoder enables direct similarity computation between real endoscopic RGB frames and CT-rendered depth maps, while a differentiable rendering module iteratively refines camera poses through depth consistency. To enhance reproducibility, we introduce the first public synthetic benchmark dataset for bronchoscopy navigation, addressing the lack of paired CT-endoscopy data. Trained exclusively on synthetic data distinct from the benchmark, our model achieves an average translational error of 2.65 mm and a rotational error of 0.19 rad, demonstrating accurate and stable localization. Qualitative results on real patient data further confirm strong cross-domain generalization, achieving consistent frame-wise 2D-3D alignment without domain-specific adaptation. Overall, the proposed framework achieves robust, domain-invariant localization through iterative vision-based optimization, while the new benchmark provides a foundation for standardized progress in vision-based bronchoscopy navigation.
- Abstract(参考訳): 術中所見と術前CTとのずれを生じる呼吸運動, 解剖学的変動, CT-to-body divergence が原因で, 気管支鏡の正確な部位同定が困難である。
既存の視覚ベースの手法は、多くの場合、ドメインや患者をまたいだ一般化に失敗し、残差のアライメントエラーを引き起こす。
この研究は、堅牢な視覚ベースのフレームワークと、標準化および再現可能な評価を可能にする新しい合成ベンチマークデータセットを通じて、気管支鏡ナビゲーションの一般化可能な基盤を確立する。
術中内視鏡視と術前CT解剖のフレームワイド2D-3D登録のための視覚ベースのポーズ最適化フレームワークを提案する。
細調整されたモダリティおよびドメイン不変エンコーダは、実際の内視鏡的RGBフレームとCTレンダリングされた深度マップとの直接的な類似性計算を可能にし、また、分割可能なレンダリングモジュールは、奥行き整合性を通してカメラのポーズを反復的に洗練する。
再現性を高めるため,気管支鏡ナビゲーションのための最初の公開ベンチマークデータセットを導入し,ペアCT-内視鏡データの欠如に対処した。
本モデルでは, ベンチマークと異なる合成データのみを用いて, 平均翻訳誤差2.65mm, 回転誤差0.19radを実現し, 高精度かつ安定な局所化を実証した。
実際の患者データに対する定性的な結果はさらに強いクロスドメインの一般化を確認し、ドメイン固有の適応なしに一貫したフレームワイド2D-3Dアライメントを実現する。
提案したフレームワークは、反復的視覚に基づく最適化により、堅牢でドメイン不変なローカライゼーションを実現し、新しいベンチマークは、視覚に基づく気管支鏡ナビゲーションの標準化の基盤を提供する。
関連論文リスト
- EqDiff-CT: Equivariant Conditional Diffusion model for CT Image Synthesis from CBCT [43.92108185590778]
画像誘導放射線療法(IGRT)に広く用いられているコーンビームCT(CBCT)
CBCTから高品質なCT画像を生成するために,EqDiff-CTという新しい拡散型条件生成モデルを提案する。
論文 参考訳(メタデータ) (2025-09-26T05:51:59Z) - Accelerating 3D Photoacoustic Computed Tomography with End-to-End Physics-Aware Neural Operators [74.65171736966131]
光音響計算トモグラフィ(PACT)は、光コントラストと超音波分解能を組み合わせることで、光拡散限界を超える深部像を実現する。
現在の実装では、高密度トランスデューサアレイと長い取得時間を必要とし、臨床翻訳を制限している。
本研究では,センサ計測からボリューム再構成まで,逆音響マッピングを直接学習する物理認識モデルであるPanoを紹介する。
論文 参考訳(メタデータ) (2025-09-11T23:12:55Z) - Unifying Scale-Aware Depth Prediction and Perceptual Priors for Monocular Endoscope Pose Estimation and Tissue Reconstruction [3.251946340142663]
単分子内視鏡組織再建のための統一的枠組みを提示する。
スケール認識深度予測と時間的に制約された知覚の洗練を統合する。
HEVDとSCAREDの評価は、アブレーションと比較分析によって、最先端の手法よりもフレームワークの堅牢性と優位性を示している。
論文 参考訳(メタデータ) (2025-08-15T07:41:17Z) - Robust and Accurate Multi-view 2D/3D Image Registration with Differentiable X-ray Rendering and Dual Cross-view Constraints [45.57808049168089]
2段階からなる新しい多視点2D/3D剛性登録手法を提案する。
第1段階では、予測と地味の両相の相違を取り入れた複合損失関数が設計される。
第2段階では、粗い段階から推定されたポーズを洗練するために、テスト時間最適化を行う。
論文 参考訳(メタデータ) (2025-06-27T12:57:58Z) - MR2US-Pro: Prostate MR to Ultrasound Image Translation and Registration Based on Diffusion Models [7.512221808783586]
本稿では,TRUS 3次元再構成とクロスモーダル登録という,2段階のプロセスによる課題に対処する新しい枠組みを提案する。
本稿では,矢状面と横方向のTRUSビューの自然な相関を生かした完全プローブ位置独立アプローチを提案する。
登録段階では、モダリティ変換によって導かれる教師なし拡散に基づくフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-31T14:55:03Z) - Harnessing Foundation Models for Robust and Generalizable 6-DOF Bronchoscopy Localization [2.795503750654676]
視覚に基づく6-DOF気管支鏡の局所化は、正確で費用対効果の高い介入誘導のための有望なソリューションを提供する。
既存の方法では,1)ラベル付きデータ不足による患者全体の一般化の制限,2)視覚的劣化による堅牢性の低下に苦慮している。
気管支鏡の局所化フレームワークであるPANSv2を提案する。
論文 参考訳(メタデータ) (2025-05-30T06:14:12Z) - DPER: Diffusion Prior Driven Neural Representation for Limited Angle and Sparse View CT Reconstruction [45.00528216648563]
Diffusion Prior Driven Neural Representation (DPER) は、異常に不適切なCT再構成逆問題に対処するために設計された、教師なしのフレームワークである。
DPERは、半二次分割法(HQS)アルゴリズムを採用し、逆問題からデータ忠実度とサブプロブレム前の分布に分解する。
LACTにおけるDPERの性能評価と2つの公開データセットを用いた超SVCT再構成に関する総合的な実験を行った。
論文 参考訳(メタデータ) (2024-04-27T12:55:13Z) - Fully Differentiable Correlation-driven 2D/3D Registration for X-ray to CT Image Fusion [3.868072865207522]
画像ベース剛性2D/3Dレジストレーションは, 蛍光ガイド下外科手術において重要な技術である。
デュアルブランチCNN変換器エンコーダを用いた完全微分型相関型ネットワークを提案する。
組込み情報に基づく低周波特徴と高周波特徴の分解に対して相関型損失を提案する。
論文 参考訳(メタデータ) (2024-02-04T14:12:51Z) - Revisiting 3D Context Modeling with Supervised Pre-training for
Universal Lesion Detection in CT Slices [48.85784310158493]
CTスライスにおける普遍的病変検出のための3Dコンテキスト強化2D特徴を効率的に抽出するための修飾擬似3次元特徴ピラミッドネットワーク(MP3D FPN)を提案する。
新たな事前学習手法により,提案したMP3D FPNは,DeepLesionデータセット上での最先端検出性能を実現する。
提案された3Dプリトレーニングウェイトは、他の3D医療画像分析タスクのパフォーマンスを高めるために使用できる。
論文 参考訳(メタデータ) (2020-12-16T07:11:16Z) - Tattoo tomography: Freehand 3D photoacoustic image reconstruction with
an optical pattern [49.240017254888336]
光音響トモグラフィ(PAT)は、形態学的および機能的組織特性の両方を解決することができる新しいイメージング技術である。
現在の欠点は、従来の2Dプローブによって提供される視野の制限である。
本研究では,外部追跡システムを必要としないPATデータの3次元再構成手法を提案する。
論文 参考訳(メタデータ) (2020-11-10T09:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。