論文の概要: Multi-Modal Monocular Endoscopic Depth and Pose Estimation with Edge-Guided Self-Supervision
- arxiv url: http://arxiv.org/abs/2602.17785v1
- Date: Thu, 19 Feb 2026 19:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.119621
- Title: Multi-Modal Monocular Endoscopic Depth and Pose Estimation with Edge-Guided Self-Supervision
- Title(参考訳): エッジガイド型セルフスーパービジョンによる多モード単眼内視鏡深度とポス推定
- Authors: Xinwei Ju, Rema Daher, Danail Stoyanov, Sophia Bano, Francisco Vasconcelos,
- Abstract要約: 単眼深度とポーズ推定は大腸内視鏡補助ナビゲーションの開発において重要な役割を担っている。
PRISM**は,解剖学と照明学の先行技術を利用して幾何学的学習をガイドする自己教師型学習フレームワークである。
- 参考スコア(独自算出の注目度): 11.141482696146275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular depth and pose estimation play an important role in the development of colonoscopy-assisted navigation, as they enable improved screening by reducing blind spots, minimizing the risk of missed or recurrent lesions, and lowering the likelihood of incomplete examinations. However, this task remains challenging due to the presence of texture-less surfaces, complex illumination patterns, deformation, and a lack of in-vivo datasets with reliable ground truth. In this paper, we propose **PRISM** (Pose-Refinement with Intrinsic Shading and edge Maps), a self-supervised learning framework that leverages anatomical and illumination priors to guide geometric learning. Our approach uniquely incorporates edge detection and luminance decoupling for structural guidance. Specifically, edge maps are derived using a learning-based edge detector (e.g., DexiNed or HED) trained to capture thin and high-frequency boundaries, while luminance decoupling is obtained through an intrinsic decomposition module that separates shading and reflectance, enabling the model to exploit shading cues for depth estimation. Experimental results on multiple real and synthetic datasets demonstrate state-of-the-art performance. We further conduct a thorough ablation study on training data selection to establish best practices for pose and depth estimation in colonoscopy. This analysis yields two practical insights: (1) self-supervised training on real-world data outperforms supervised training on realistic phantom data, underscoring the superiority of domain realism over ground truth availability; and (2) video frame rate is an extremely important factor for model performance, where dataset-specific video frame sampling is necessary for generating high quality training data.
- Abstract(参考訳): 単眼深度とポーズ推定は、盲点の減少、再発または再発のリスクの最小化、不完全検査の可能性の低下によるスクリーニングの改善を可能にするため、大腸内視鏡補助ナビゲーションの開発において重要な役割を担っている。
しかし、この課題は、テクスチャのない表面の存在、複雑な照明パターン、変形、そして信頼できる地上真実を持つ生きたデータセットの欠如により、依然として困難なままである。
本稿では, 解剖学と照明学を併用した自己教師型学習フレームワークである*PRISM*(Pose-Refinement with Intrinsic Shading and edge Maps)を提案する。
本手法は,構造誘導のためのエッジ検出と輝度デカップリングを独自に組み込んだものである。
具体的には、エッジマップを学習ベースのエッジ検出器(例えば、DexiNed、HED)を用いて導出し、一方、輝度デカップリングは、シェーディングと反射を分離する固有の分解モジュールによって得られ、モデルがシェーディングキューを利用して深度推定を行うことができる。
複数の実・合成データセットの実験結果は、最先端の性能を示している。
さらに,大腸内視鏡検査におけるポーズと深度推定のベストプラクティスを確立するために,トレーニングデータ選択に関する徹底的なアブレーション研究を行った。
この分析は,(1)現実的なファントムデータに基づく教師付きトレーニング,(2)映像フレームレートは,高品質なトレーニングデータを生成するために,データセット固有のビデオフレームサンプリングを必要とするモデル性能にとって極めて重要な要素である,という2つの実践的洞察を与える。
関連論文リスト
- UM-Depth : Uncertainty Masked Self-Supervised Monocular Depth Estimation with Visual Odometry [3.8323580808203785]
我々は,動き認識と不確実性認識を組み合わせたフレームワークであるUM-Depthを導入し,深度精度を向上する。
トレーニングパイプラインとネットワークアーキテクチャの両方に不確実性推定を組み込む教師訓練戦略を開発する。
UM-Depthは、KITTIデータセット上で、自己教師付き深度とポーズ推定の両方で最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-09-17T05:51:07Z) - Always Clear Depth: Robust Monocular Depth Estimation under Adverse Weather [48.65180004211851]
高品質なトレーニングデータ生成とドメイン適応の観点から,textbfACDepth と呼ばれる頑健な単眼深度推定手法を提案する。
具体的には、悪天候条件をシミュレートするサンプルを生成するための1段階拡散モデルを導入し、トレーニング中に多段階劣化データセットを構築した。
本稿では,教師モデルと事前学習深度V2からの知識を学生ネットワークに吸収させる多粒度知識蒸留戦略(MKD)について詳述する。
論文 参考訳(メタデータ) (2025-05-18T02:30:47Z) - Occlusion-Aware Self-Supervised Monocular Depth Estimation for Weak-Texture Endoscopic Images [1.1084686909647639]
内視鏡的シーンに適した自己教師付き単眼深度推定ネットワークを提案する。
既存の方法は正確ではあるが、通常は一貫した照明を仮定する。
これらの変化は、誤った幾何学的解釈と信頼できない自己監督信号をもたらす。
論文 参考訳(メタデータ) (2025-04-24T14:12:57Z) - Leveraging Stable Diffusion for Monocular Depth Estimation via Image Semantic Encoding [1.0445560141983634]
視覚的特徴から直接文脈情報を抽出する画像に基づくセマンティック埋め込みを提案する。
提案手法は,屋外シーンの処理におけるCLIP埋め込みの欠点に対処しながら,最先端モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-01T15:37:22Z) - Unveiling Deep Shadows: A Survey and Benchmark on Image and Video Shadow Detection, Removal, and Generation in the Deep Learning Era [81.15890262168449]
光が障害物に遭遇すると影が生まれ、照度が低下する。
本稿では、画像とビデオの両方における影の検出、削除、生成に関するベンチマークを提供する。
これは過去10年間のディープラーニングアプローチに焦点を当てています。
論文 参考訳(メタデータ) (2024-09-03T17:59:05Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - Learning to Simulate Realistic LiDARs [66.7519667383175]
リアルLiDARセンサのデータ駆動シミュレーションのためのパイプラインを提案する。
本モデルでは, 透明表面上の落下点などの現実的な効果を符号化できることが示される。
我々は2つの異なるLiDARセンサのモデルを学習し、それに従ってシミュレーションされたLiDARデータを改善する。
論文 参考訳(メタデータ) (2022-09-22T13:12:54Z) - Learnable Patchmatch and Self-Teaching for Multi-Frame Depth Estimation in Monocular Endoscopy [16.233423010425355]
教師なしマルチフレーム単眼深度推定モデルを提案する。
提案モデルでは、学習可能なパッチマッチモジュールを統合し、低次および均質なテクスチャを持つ領域における識別能力を適応的に向上させる。
自己学習パラダイムの副産物として,テスト時により多くのフレームが入力されたときの深度予測を改善することができる。
論文 参考訳(メタデータ) (2022-05-30T12:11:03Z) - Occlusion-aware Unsupervised Learning of Depth from 4-D Light Fields [50.435129905215284]
4次元光場処理と解析のための教師なし学習に基づく深度推定法を提案する。
光場データの特異な幾何学構造に関する基礎知識に基づいて,光場ビューのサブセット間の角度コヒーレンスを探索し,深度マップを推定する。
提案手法は,従来の手法と同等の精度で計算コストを低減した深度マップを作成できる。
論文 参考訳(メタデータ) (2021-06-06T06:19:50Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。