論文の概要: Harnessing Foundation Models for Robust and Generalizable 6-DOF Bronchoscopy Localization
- arxiv url: http://arxiv.org/abs/2505.24249v1
- Date: Fri, 30 May 2025 06:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.797735
- Title: Harnessing Foundation Models for Robust and Generalizable 6-DOF Bronchoscopy Localization
- Title(参考訳): ロバストで一般化可能な6-DOF気管支鏡像定位のためのハラスティング基礎モデル
- Authors: Qingyao Tian, Huai Liao, Xinyan Huang, Bingyu Yang, Hongbin Liu,
- Abstract要約: 視覚に基づく6-DOF気管支鏡の局所化は、正確で費用対効果の高い介入誘導のための有望なソリューションを提供する。
既存の方法では,1)ラベル付きデータ不足による患者全体の一般化の制限,2)視覚的劣化による堅牢性の低下に苦慮している。
気管支鏡の局所化フレームワークであるPANSv2を提案する。
- 参考スコア(独自算出の注目度): 2.795503750654676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based 6-DOF bronchoscopy localization offers a promising solution for accurate and cost-effective interventional guidance. However, existing methods struggle with 1) limited generalization across patient cases due to scarce labeled data, and 2) poor robustness under visual degradation, as bronchoscopy procedures frequently involve artifacts such as occlusions and motion blur that impair visual information. To address these challenges, we propose PANSv2, a generalizable and robust bronchoscopy localization framework. Motivated by PANS that leverages multiple visual cues for pose likelihood measurement, PANSv2 integrates depth estimation, landmark detection, and centerline constraints into a unified pose optimization framework that evaluates pose probability and solves for the optimal bronchoscope pose. To further enhance generalization capabilities, we leverage the endoscopic foundation model EndoOmni for depth estimation and the video foundation model EndoMamba for landmark detection, incorporating both spatial and temporal analyses. Pretrained on diverse endoscopic datasets, these models provide stable and transferable visual representations, enabling reliable performance across varied bronchoscopy scenarios. Additionally, to improve robustness to visual degradation, we introduce an automatic re-initialization module that detects tracking failures and re-establishes pose using landmark detections once clear views are available. Experimental results on bronchoscopy dataset encompassing 10 patient cases show that PANSv2 achieves the highest tracking success rate, with an 18.1% improvement in SR-5 (percentage of absolute trajectory error under 5 mm) compared to existing methods, showing potential towards real clinical usage.
- Abstract(参考訳): 視覚に基づく6-DOF気管支鏡の局所化は、正確で費用対効果の高い介入誘導のための有望なソリューションを提供する。
しかし、既存の手法は苦戦している。
1)ラベルデータ不足による患者全体の一般化の制限
2) 気管支鏡下手術では, 視覚情報に障害のある閉塞や運動のぼやけなどの人工物がしばしば含まれるため, 視力低下による堅牢性の低下がみられた。
これらの課題に対処するため,広汎かつ堅牢な気管支鏡局所化フレームワークであるPANSv2を提案する。
複数の視覚的手がかりを利用してポーズ確率を測定するPANSによってモチベーションされたPANSv2は、深さ推定、ランドマーク検出、中心的な制約を統合されたポーズ最適化フレームワークに統合し、ポーズ確率を評価し、最適な気管支鏡のポーズを解決する。
一般化機能をさらに強化するため,深度推定には内視鏡的基礎モデルendoOmni,ランドマーク検出にはビデオ基礎モデルendoMambaを活用し,空間的・時間的分析を取り入れた。
様々な内視鏡的データセットに基づいてトレーニングされたこれらのモデルは、安定かつ伝達可能な視覚表現を提供し、様々な気管支鏡のシナリオで信頼性の高い性能を実現する。
さらに、視覚的劣化に対するロバスト性を改善するために、自動再初期化モジュールを導入し、明確なビューが利用可能になると、トラッキング障害を検出し、ランドマーク検出を使用してポーズを再確立する。
10例の気管支鏡検査データから, PANSv2はSR-5(5mm未満の絶対軌道誤差の割合)を18.1%改善し, 臨床応用の可能性を示した。
関連論文リスト
- Lightweight Relational Embedding in Task-Interpolated Few-Shot Networks for Enhanced Gastrointestinal Disease Classification [0.0]
大腸癌の検出は、患者の生存率を高めるために重要である。
大腸内視鏡は、適切な高品質の内視鏡画像を取得することに依存する。
Few-Shot Learning アーキテクチャにより、我々のモデルは、目に見えないきめ細かな内視鏡画像パターンに迅速に適応できる。
精度は90.1%,精度は0.845,リコールは0.942,F1スコアは0.891であった。
論文 参考訳(メタデータ) (2025-05-30T16:54:51Z) - DiffDoctor: Diagnosing Image Diffusion Models Before Treating [57.82359018425674]
DiffDoctorは2段階のパイプラインで、画像拡散モデルがより少ないアーティファクトを生成するのを支援する。
我々は100万以上の欠陥のある合成画像のデータセットを収集し、効率的なHuman-in-the-loopアノテーションプロセスを構築した。
次に、学習したアーティファクト検出器が第2段階に関与し、ピクセルレベルのフィードバックを提供することで拡散モデルを最適化する。
論文 参考訳(メタデータ) (2025-01-21T18:56:41Z) - Self-supervised Monocular Depth and Pose Estimation for Endoscopy with Generative Latent Priors [10.61978045582697]
内視鏡における3Dマッピングは、消化管(GI)内の定量的、全体的病変のキャラクタリゼーションを可能にする。
既存の合成データセットや複雑なモデルに依存する手法は、しばしば内視鏡的条件に挑戦する際の一般化性に欠ける。
本稿では,多変量オートエンコーダと生成潜在銀行を組み込んだ,頑健な自己監督型単眼深度とポーズ推定フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T15:43:06Z) - PANS: Probabilistic Airway Navigation System for Real-time Robust Bronchoscope Localization [4.755280006199144]
気管支鏡の局所化のための新しい確率的気道ナビゲーションシステム(PANS)を提案する。
私たちのPANSは、DMI(Depth-based Motion Inference)とBSA(Bronchial Semantic Analysis)という2つの重要なモジュールを活用することで、多様な視覚表現を取り入れています。
この確率的定式化では,6-DOF気管支鏡の局所化を精度と堅牢性で達成できる。
論文 参考訳(メタデータ) (2024-07-08T02:13:41Z) - DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文 参考訳(メタデータ) (2024-04-01T18:59:13Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - Deep denoising autoencoder-based non-invasive blood flow detection for
arteriovenous fistula [10.030431512848239]
本稿では,DAE(Deep Denoising Autoencoder)に基づく次元削減と再構成作業を行う手法を提案する。
以上の結果から,DAEが生み出す潜伏表現は0.93の精度で予測を上回った。
ノイズ・ミキシングの導入とノイズ・トゥ・クリーン・スキームの利用により、潜在表現の識別能力が効果的に向上する。
論文 参考訳(メタデータ) (2023-06-12T04:46:01Z) - The role of noise in denoising models for anomaly detection in medical
images [62.0532151156057]
病理脳病変は脳画像に多彩な外観を示す。
正規データのみを用いた教師なし異常検出手法が提案されている。
空間分解能の最適化と雑音の大きさの最適化により,異なるモデル学習体制の性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-19T21:39:38Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。