論文の概要: EndoMUST: Monocular Depth Estimation for Robotic Endoscopy via End-to-end Multi-step Self-supervised Training
- arxiv url: http://arxiv.org/abs/2506.16017v1
- Date: Thu, 19 Jun 2025 04:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.938873
- Title: EndoMUST: Monocular Depth Estimation for Robotic Endoscopy via End-to-end Multi-step Self-supervised Training
- Title(参考訳): End-to-end Multi-step Self-supervised Training によるロボット内視鏡の単眼深度推定
- Authors: Liangjing Shao, Linxin Bai, Chenkang Du, Xinrong Chen,
- Abstract要約: 本研究では,多段効率のファインタニングを施した新しいフレームワークを提案する。
基礎モデルに基づくパラメータ効率の微調整に基づいて,提案手法は最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 0.7499722271664147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular depth estimation and ego-motion estimation are significant tasks for scene perception and navigation in stable, accurate and efficient robot-assisted endoscopy. To tackle lighting variations and sparse textures in endoscopic scenes, multiple techniques including optical flow, appearance flow and intrinsic image decomposition have been introduced into the existing methods. However, the effective training strategy for multiple modules are still critical to deal with both illumination issues and information interference for self-supervised depth estimation in endoscopy. Therefore, a novel framework with multistep efficient finetuning is proposed in this work. In each epoch of end-to-end training, the process is divided into three steps, including optical flow registration, multiscale image decomposition and multiple transformation alignments. At each step, only the related networks are trained without interference of irrelevant information. Based on parameter-efficient finetuning on the foundation model, the proposed method achieves state-of-the-art performance on self-supervised depth estimation on SCARED dataset and zero-shot depth estimation on Hamlyn dataset, with 4\%$\sim$10\% lower error. The evaluation code of this work has been published on https://github.com/BaymaxShao/EndoMUST.
- Abstract(参考訳): 単眼深度推定とエゴモーション推定は,安定した,正確かつ効率的なロボット支援内視鏡におけるシーン認識とナビゲーションにおいて重要な課題である。
内視鏡的シーンにおける光の変動やスパーステクスチャに対処するために,光学的フロー,外観フロー,内在的画像分解といった複数の技術が既存の手法に導入されている。
しかし,複数のモジュールに対する効果的なトレーニング戦略は,内視鏡における自己監督深度推定のための照明問題と情報干渉の両方に対処することが依然として重要である。
そこで本研究では,多段効率のファインタニングを施した新しいフレームワークを提案する。
エンドツーエンドトレーニングの各段階において、プロセスは光学的フロー登録、マルチスケール画像分解、多重変換アライメントを含む3つのステップに分けられる。
各ステップにおいて、関連するネットワークのみが無関係な情報の干渉なしに訓練される。
基礎モデルに基づくパラメータ効率の微調整により,SCAREDデータセットの自己監督深度推定とHamlynデータセットのゼロショット深度推定を4\%$\sim$10\%低い誤差で実現した。
この研究の評価コードはhttps://github.com/BaymaxShao/EndoMUSTで公開されている。
関連論文リスト
- Occlusion-Aware Self-Supervised Monocular Depth Estimation for Weak-Texture Endoscopic Images [1.1084686909647639]
内視鏡的シーンに適した自己教師付き単眼深度推定ネットワークを提案する。
既存の方法は正確ではあるが、通常は一貫した照明を仮定する。
これらの変化は、誤った幾何学的解釈と信頼できない自己監督信号をもたらす。
論文 参考訳(メタデータ) (2025-04-24T14:12:57Z) - Advancing Depth Anything Model for Unsupervised Monocular Depth Estimation in Endoscopy [2.906891207990726]
本稿では,Depth Anything Modelのための新しい微調整戦略を提案する。
本手法は本態性に基づく教師なし単眼深度推定フレームワークと統合する。
提案手法は,トレーニング可能なパラメータ数を最小化しつつ,最先端性能を実現する。
論文 参考訳(メタデータ) (2024-09-12T03:04:43Z) - EndoOmni: Zero-Shot Cross-Dataset Depth Estimation in Endoscopy by Robust Self-Learning from Noisy Labels [4.99086145037811]
単一画像深度推定は、局所化、再構成、拡張現実といった内視鏡的タスクに不可欠である。
既存の手術シーンのほとんどの方法は、領域内深さの推定に焦点を合わせ、実際の応用性を制限する。
内視鏡のためのゼロショットクロスドメイン深度推定のための最初の基礎モデルであるEndo Omniを提案する。
論文 参考訳(メタデータ) (2024-09-09T08:46:45Z) - The Surprising Effectiveness of Diffusion Models for Optical Flow and
Monocular Depth Estimation [42.48819460873482]
拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。
また,タスク固有のアーキテクチャや損失関数を使わずに,光学的フローと単眼深度の推定に優れることを示す。
論文 参考訳(メタデータ) (2023-06-02T21:26:20Z) - Towards Domain-agnostic Depth Completion [28.25756709062647]
既存の深度補完法は、しばしば特定のスパース深度型を目標とし、タスク領域をまたいだ一般化が不十分である。
各種センサで得られたスパース/セミデンス,ノイズ,および低分解能深度マップを完備する手法を提案する。
本手法は,最先端の深度補完法に対して優れたクロスドメイン一般化能力を示す。
論文 参考訳(メタデータ) (2022-07-29T04:10:22Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - A parameter refinement method for Ptychography based on Deep Learning
concepts [55.41644538483948]
伝播距離、位置誤差、部分的コヒーレンスにおける粗いパラメトリゼーションは、しばしば実験の生存性を脅かす。
最新のDeep Learningフレームワークは、セットアップの不整合を自律的に補正するために使用され、ポチコグラフィーの再構築の質が向上する。
我々は,elettra シンクロトロン施設のツインミックビームラインで取得した合成データセットと実データの両方でシステムをテストした。
論文 参考訳(メタデータ) (2021-05-18T10:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。