論文の概要: Self-supervised Monocular Depth and Pose Estimation for Endoscopy with Generative Latent Priors
- arxiv url: http://arxiv.org/abs/2411.17790v2
- Date: Mon, 09 Dec 2024 14:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:50:50.065165
- Title: Self-supervised Monocular Depth and Pose Estimation for Endoscopy with Generative Latent Priors
- Title(参考訳): 自己監督型単眼深度と前立腺前立腺内視鏡のポス推定
- Authors: Ziang Xu, Bin Li, Yang Hu, Chenyu Zhang, James East, Sharib Ali, Jens Rittscher,
- Abstract要約: 内視鏡における3Dマッピングは、消化管(GI)内の定量的、全体的病変のキャラクタリゼーションを可能にする。
既存の合成データセットや複雑なモデルに依存する手法は、しばしば内視鏡的条件に挑戦する際の一般化性に欠ける。
本稿では,多変量オートエンコーダと生成潜在銀行を組み込んだ,頑健な自己監督型単眼深度とポーズ推定フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.61978045582697
- License:
- Abstract: Accurate 3D mapping in endoscopy enables quantitative, holistic lesion characterization within the gastrointestinal (GI) tract, requiring reliable depth and pose estimation. However, endoscopy systems are monocular, and existing methods relying on synthetic datasets or complex models often lack generalizability in challenging endoscopic conditions. We propose a robust self-supervised monocular depth and pose estimation framework that incorporates a Generative Latent Bank and a Variational Autoencoder (VAE). The Generative Latent Bank leverages extensive depth scenes from natural images to condition the depth network, enhancing realism and robustness of depth predictions through latent feature priors. For pose estimation, we reformulate it within a VAE framework, treating pose transitions as latent variables to regularize scale, stabilize z-axis prominence, and improve x-y sensitivity. This dual refinement pipeline enables accurate depth and pose predictions, effectively addressing the GI tract's complex textures and lighting. Extensive evaluations on SimCol and EndoSLAM datasets confirm our framework's superior performance over published self-supervised methods in endoscopic depth and pose estimation.
- Abstract(参考訳): 内視鏡における正確な3Dマッピングにより、消化管(GI)内における定量的、全体的病変のキャラクタリゼーションが可能となり、信頼性の高い深度とポーズ推定が要求される。
しかし、内視鏡系は単分子的であり、既存の合成データセットや複雑なモデルに依存する手法は、内視鏡的条件に挑戦する際の一般化性に欠けることが多い。
本稿では, 自己監督型単眼深度とポーズ推定の枠組みを提案し, 生成潜在銀行と変分オートエンコーダ(VAE)を組み込んだ。
Generative Latent Bankは、自然画像からの広い奥行きのシーンを利用して、奥行きのネットワークを条件付け、潜伏した特徴による奥行きの予測のリアリズムと堅牢性を高める。
ポーズ推定のために,VAE フレームワーク内で,ポーズ遷移を潜時変数として扱い,スケールを規則化し,z軸長所を安定化し,x-y 感度を向上させる。
このデュアルリファインメントパイプラインは、GIトラクターの複雑なテクスチャと照明に効果的に対処し、正確な深さと予測のポーズを可能にする。
SimColおよびEndoSLAMデータセットの広範囲な評価により、内視鏡深度とポーズ推定における自己教師付き手法よりもフレームワークの優れた性能が確認された。
関連論文リスト
- PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - EndoDepth: A Benchmark for Assessing Robustness in Endoscopic Depth Prediction [1.7243216387069678]
本研究では,単眼深度予測モデルのロバスト性を評価するための評価フレームワークであるEndoDepthベンチマークを提案する。
本稿では,内視鏡的シナリオにおけるモデルの堅牢性を評価するために,一貫した,特に設計された評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T04:18:14Z) - Benchmarking Robustness of Endoscopic Depth Estimation with Synthetically Corrupted Data [6.963196918624006]
本稿では,内視鏡的深度推定モデルのロバスト性を評価するためのベンチマークを提案する。
本稿では, 誤差, 精度, 堅牢性の尺度を組み合わせた新しい尺度であるDepth Estimation Robustness Score(DERS)を紹介する。
本フレームワークを用いた2つの単分子深度推定モデルの網羅的解析により, 悪条件下での信頼性に関する重要な情報を明らかにした。
論文 参考訳(メタデータ) (2024-09-24T13:04:54Z) - Generalizing monocular colonoscopy image depth estimation by uncertainty-based global and local fusion network [3.4419856649092746]
本研究の目的は,大腸内視鏡画像によく応用できる堅牢なフレームワークを開発することである。
本稿では,局所的な特徴を捉えるための畳み込みニューラルネットワーク(CNN)と,グローバルな情報を取得するためのトランスフォーマーを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-23T13:30:59Z) - Advancing Depth Anything Model for Unsupervised Monocular Depth Estimation in Endoscopy [3.1186464715409983]
本稿では,Depth Anything Modelのための新しい微調整戦略を提案する。
本手法は本態性に基づく教師なし単眼深度推定フレームワークと統合する。
SCAREDデータセットで得られた結果は,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-09-12T03:04:43Z) - ToDER: Towards Colonoscopy Depth Estimation and Reconstruction with Geometry Constraint Adaptation [67.22294293695255]
そこで本稿では,ToDERという双方向適応アーキテクチャを用いて,高精度な深度推定を行う新しいパイプラインを提案する。
以上の結果から,本手法は実写および合成大腸内視鏡ビデオの深度マップを精度良く予測できることが示唆された。
論文 参考訳(メタデータ) (2024-07-23T14:24:26Z) - Adversarial Domain Feature Adaptation for Bronchoscopic Depth Estimation [111.89519571205778]
そこで本研究では,深度推定のためのドメイン適応手法を提案する。
提案する2段階構造は,まず,ラベル付き合成画像を用いた深度推定ネットワークを教師付きで訓練する。
実験の結果,提案手法は実画像上でのネットワーク性能をかなりの差で向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-24T08:11:34Z) - On the Sins of Image Synthesis Loss for Self-supervised Depth Estimation [60.780823530087446]
画像合成の改善は深度推定の改善を必要としないことを示す。
この発散現象は、データから生じるアレラトリックな不確実性に起因している。
この観察された発散は、以前に報告されたり、深く研究されたりしていない。
論文 参考訳(メタデータ) (2021-09-13T17:57:24Z) - Adaptive confidence thresholding for monocular depth estimation [83.06265443599521]
本稿では,自己教師付ステレオマッチング法から生成されたステレオ画像の擬似地上真実深度マップを利用する新しい手法を提案する。
擬似地底深度マップの信頼度マップを推定し、不正確な擬似地底深度マップによる性能劣化を緩和する。
実験結果から, 最先端の単分子深度推定法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-09-27T13:26:16Z) - Calibrating Self-supervised Monocular Depth Estimation [77.77696851397539]
近年、ニューラルネットワークが深度を学習し、画像のシーケンスに変化を起こさせる能力を示す方法は、訓練信号として自己スーパービジョンのみを使用している。
カメラの構成や環境に関する事前情報を取り入れることで,センサの追加に頼ることなく,自己教師型定式化を用いて,スケールのあいまいさを排除し,深度を直接予測できることを示す。
論文 参考訳(メタデータ) (2020-09-16T14:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。