論文の概要: Self-supervised Monocular Depth and Pose Estimation for Endoscopy with Generative Latent Priors
- arxiv url: http://arxiv.org/abs/2411.17790v2
- Date: Mon, 09 Dec 2024 14:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 16:49:05.499614
- Title: Self-supervised Monocular Depth and Pose Estimation for Endoscopy with Generative Latent Priors
- Title(参考訳): 自己監督型単眼深度と前立腺前立腺内視鏡のポス推定
- Authors: Ziang Xu, Bin Li, Yang Hu, Chenyu Zhang, James East, Sharib Ali, Jens Rittscher,
- Abstract要約: 内視鏡における3Dマッピングは、消化管(GI)内の定量的、全体的病変のキャラクタリゼーションを可能にする。
既存の合成データセットや複雑なモデルに依存する手法は、しばしば内視鏡的条件に挑戦する際の一般化性に欠ける。
本稿では,多変量オートエンコーダと生成潜在銀行を組み込んだ,頑健な自己監督型単眼深度とポーズ推定フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.61978045582697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 3D mapping in endoscopy enables quantitative, holistic lesion characterization within the gastrointestinal (GI) tract, requiring reliable depth and pose estimation. However, endoscopy systems are monocular, and existing methods relying on synthetic datasets or complex models often lack generalizability in challenging endoscopic conditions. We propose a robust self-supervised monocular depth and pose estimation framework that incorporates a Generative Latent Bank and a Variational Autoencoder (VAE). The Generative Latent Bank leverages extensive depth scenes from natural images to condition the depth network, enhancing realism and robustness of depth predictions through latent feature priors. For pose estimation, we reformulate it within a VAE framework, treating pose transitions as latent variables to regularize scale, stabilize z-axis prominence, and improve x-y sensitivity. This dual refinement pipeline enables accurate depth and pose predictions, effectively addressing the GI tract's complex textures and lighting. Extensive evaluations on SimCol and EndoSLAM datasets confirm our framework's superior performance over published self-supervised methods in endoscopic depth and pose estimation.
- Abstract(参考訳): 内視鏡における正確な3Dマッピングにより、消化管(GI)内における定量的、全体的病変のキャラクタリゼーションが可能となり、信頼性の高い深度とポーズ推定が要求される。
しかし、内視鏡系は単分子的であり、既存の合成データセットや複雑なモデルに依存する手法は、内視鏡的条件に挑戦する際の一般化性に欠けることが多い。
本稿では, 自己監督型単眼深度とポーズ推定の枠組みを提案し, 生成潜在銀行と変分オートエンコーダ(VAE)を組み込んだ。
Generative Latent Bankは、自然画像からの広い奥行きのシーンを利用して、奥行きのネットワークを条件付け、潜伏した特徴による奥行きの予測のリアリズムと堅牢性を高める。
ポーズ推定のために,VAE フレームワーク内で,ポーズ遷移を潜時変数として扱い,スケールを規則化し,z軸長所を安定化し,x-y 感度を向上させる。
このデュアルリファインメントパイプラインは、GIトラクターの複雑なテクスチャと照明に効果的に対処し、正確な深さと予測のポーズを可能にする。
SimColおよびEndoSLAMデータセットの広範囲な評価により、内視鏡深度とポーズ推定における自己教師付き手法よりもフレームワークの優れた性能が確認された。
関連論文リスト
- EndoSfM3D: Learning to 3D Reconstruct Any Endoscopic Surgery Scene using Self-supervised Foundation Model [2.8913847481700667]
内視鏡下手術シーンの3次元再構築は,シーン認識の向上,AR可視化の実現,画像誘導手術におけるコンテキスト認識意思決定支援に重要な役割を担っている。
内在キャリブレーションは、不安定性の制約や、連続ズームと望遠鏡回転を備えた特殊な内視鏡の使用によって妨げられる。
本稿では, 奥行き, ポーズ, 内在性予測に, 奥行きV2(DA2)モデルを適用することで, 内在的パラメータ推定を自己教師付き単眼深度推定フレームワークに統合する。
提案手法はSCAREDおよびC3VD公開データセット上で検証され,最近の状態と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2025-10-25T16:39:04Z) - Accelerating 3D Photoacoustic Computed Tomography with End-to-End Physics-Aware Neural Operators [74.65171736966131]
光音響計算トモグラフィ(PACT)は、光コントラストと超音波分解能を組み合わせることで、光拡散限界を超える深部像を実現する。
現在の実装では、高密度トランスデューサアレイと長い取得時間を必要とし、臨床翻訳を制限している。
本研究では,センサ計測からボリューム再構成まで,逆音響マッピングを直接学習する物理認識モデルであるPanoを紹介する。
論文 参考訳(メタデータ) (2025-09-11T23:12:55Z) - EndoGMDE: Generalizable Monocular Depth Estimation with Mixture of Low-Rank Experts for Diverse Endoscopic Scenes [3.9727779638306484]
本研究では,多彩な内視鏡における単分子深度推定のための新しい自己監督型フレームワークを提案する。
まず,異なる組織を持つ内視鏡的シーンの多様な特徴を考慮すると,ダイナミックな低ランクの専門家によるブロックワイドな混合が提案されている。
提案モジュールでは,少量のトレーニング可能なパラメータを持つ異なる専門家が重み付き推論に対して適応的に選択される。
提案手法はSCAREDデータセットとSimColデータセットの最先端処理よりも優れている。
論文 参考訳(メタデータ) (2025-09-01T07:45:12Z) - EndoUFM: Utilizing Foundation Models for Monocular depth estimation of endoscopic images [7.350425834778092]
EndoUFMは、教師なしの単眼深度推定フレームワークである。
強力な事前学習先を活用することにより、深さ推定性能を向上させる。
この研究は、最小侵襲の手術において、外科医の空間的知覚を増大させるのに寄与する。
論文 参考訳(メタデータ) (2025-08-25T11:33:05Z) - Unifying Scale-Aware Depth Prediction and Perceptual Priors for Monocular Endoscope Pose Estimation and Tissue Reconstruction [3.251946340142663]
単分子内視鏡組織再建のための統一的枠組みを提示する。
スケール認識深度予測と時間的に制約された知覚の洗練を統合する。
HEVDとSCAREDの評価は、アブレーションと比較分析によって、最先端の手法よりもフレームワークの堅牢性と優位性を示している。
論文 参考訳(メタデータ) (2025-08-15T07:41:17Z) - Harnessing Foundation Models for Robust and Generalizable 6-DOF Bronchoscopy Localization [2.795503750654676]
視覚に基づく6-DOF気管支鏡の局所化は、正確で費用対効果の高い介入誘導のための有望なソリューションを提供する。
既存の方法では,1)ラベル付きデータ不足による患者全体の一般化の制限,2)視覚的劣化による堅牢性の低下に苦慮している。
気管支鏡の局所化フレームワークであるPANSv2を提案する。
論文 参考訳(メタデータ) (2025-05-30T06:14:12Z) - Occlusion-Aware Self-Supervised Monocular Depth Estimation for Weak-Texture Endoscopic Images [1.1084686909647639]
内視鏡的シーンに適した自己教師付き単眼深度推定ネットワークを提案する。
既存の方法は正確ではあるが、通常は一貫した照明を仮定する。
これらの変化は、誤った幾何学的解釈と信頼できない自己監督信号をもたらす。
論文 参考訳(メタデータ) (2025-04-24T14:12:57Z) - Multi-view Reconstruction via SfM-guided Monocular Depth Estimation [92.89227629434316]
マルチビュー幾何再構成のための新しい手法を提案する。
深度推定プロセスに、より強力なマルチビューであるSfM情報を組み込む。
本手法は, 従来の単分子深度推定法と比較して, 深度推定の精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-18T17:54:06Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - EndoDepth: A Benchmark for Assessing Robustness in Endoscopic Depth Prediction [1.7243216387069678]
本研究では,単眼深度予測モデルのロバスト性を評価するための評価フレームワークであるEndoDepthベンチマークを提案する。
本稿では,内視鏡的シナリオにおけるモデルの堅牢性を評価するために,一貫した,特に設計された評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T04:18:14Z) - Benchmarking Robustness of Endoscopic Depth Estimation with Synthetically Corrupted Data [6.963196918624006]
本稿では,内視鏡的深度推定モデルのロバスト性を評価するためのベンチマークを提案する。
本稿では, 誤差, 精度, 堅牢性の尺度を組み合わせた新しい尺度であるDepth Estimation Robustness Score(DERS)を紹介する。
本フレームワークを用いた2つの単分子深度推定モデルの網羅的解析により, 悪条件下での信頼性に関する重要な情報を明らかにした。
論文 参考訳(メタデータ) (2024-09-24T13:04:54Z) - Generalizing monocular colonoscopy image depth estimation by uncertainty-based global and local fusion network [3.4419856649092746]
本研究の目的は,大腸内視鏡画像によく応用できる堅牢なフレームワークを開発することである。
本稿では,局所的な特徴を捉えるための畳み込みニューラルネットワーク(CNN)と,グローバルな情報を取得するためのトランスフォーマーを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-23T13:30:59Z) - Advancing Depth Anything Model for Unsupervised Monocular Depth Estimation in Endoscopy [3.1186464715409983]
本稿では,Depth Anything Modelのための新しい微調整戦略を提案する。
本手法は本態性に基づく教師なし単眼深度推定フレームワークと統合する。
SCAREDデータセットで得られた結果は,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-09-12T03:04:43Z) - ToDER: Towards Colonoscopy Depth Estimation and Reconstruction with Geometry Constraint Adaptation [67.22294293695255]
そこで本稿では,ToDERという双方向適応アーキテクチャを用いて,高精度な深度推定を行う新しいパイプラインを提案する。
以上の結果から,本手法は実写および合成大腸内視鏡ビデオの深度マップを精度良く予測できることが示唆された。
論文 参考訳(メタデータ) (2024-07-23T14:24:26Z) - Adversarial Domain Feature Adaptation for Bronchoscopic Depth Estimation [111.89519571205778]
そこで本研究では,深度推定のためのドメイン適応手法を提案する。
提案する2段階構造は,まず,ラベル付き合成画像を用いた深度推定ネットワークを教師付きで訓練する。
実験の結果,提案手法は実画像上でのネットワーク性能をかなりの差で向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-24T08:11:34Z) - On the Sins of Image Synthesis Loss for Self-supervised Depth Estimation [60.780823530087446]
画像合成の改善は深度推定の改善を必要としないことを示す。
この発散現象は、データから生じるアレラトリックな不確実性に起因している。
この観察された発散は、以前に報告されたり、深く研究されたりしていない。
論文 参考訳(メタデータ) (2021-09-13T17:57:24Z) - Adaptive confidence thresholding for monocular depth estimation [83.06265443599521]
本稿では,自己教師付ステレオマッチング法から生成されたステレオ画像の擬似地上真実深度マップを利用する新しい手法を提案する。
擬似地底深度マップの信頼度マップを推定し、不正確な擬似地底深度マップによる性能劣化を緩和する。
実験結果から, 最先端の単分子深度推定法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-09-27T13:26:16Z) - Calibrating Self-supervised Monocular Depth Estimation [77.77696851397539]
近年、ニューラルネットワークが深度を学習し、画像のシーケンスに変化を起こさせる能力を示す方法は、訓練信号として自己スーパービジョンのみを使用している。
カメラの構成や環境に関する事前情報を取り入れることで,センサの追加に頼ることなく,自己教師型定式化を用いて,スケールのあいまいさを排除し,深度を直接予測できることを示す。
論文 参考訳(メタデータ) (2020-09-16T14:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。