論文の概要: EndoMUST: Monocular Depth Estimation for Robotic Endoscopy via End-to-end Multi-step Self-supervised Training
- arxiv url: http://arxiv.org/abs/2506.16017v1
- Date: Thu, 19 Jun 2025 04:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.938873
- Title: EndoMUST: Monocular Depth Estimation for Robotic Endoscopy via End-to-end Multi-step Self-supervised Training
- Title(参考訳): End-to-end Multi-step Self-supervised Training によるロボット内視鏡の単眼深度推定
- Authors: Liangjing Shao, Linxin Bai, Chenkang Du, Xinrong Chen,
- Abstract要約: 本研究では,多段効率のファインタニングを施した新しいフレームワークを提案する。
基礎モデルに基づくパラメータ効率の微調整に基づいて,提案手法は最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 0.7499722271664147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular depth estimation and ego-motion estimation are significant tasks for scene perception and navigation in stable, accurate and efficient robot-assisted endoscopy. To tackle lighting variations and sparse textures in endoscopic scenes, multiple techniques including optical flow, appearance flow and intrinsic image decomposition have been introduced into the existing methods. However, the effective training strategy for multiple modules are still critical to deal with both illumination issues and information interference for self-supervised depth estimation in endoscopy. Therefore, a novel framework with multistep efficient finetuning is proposed in this work. In each epoch of end-to-end training, the process is divided into three steps, including optical flow registration, multiscale image decomposition and multiple transformation alignments. At each step, only the related networks are trained without interference of irrelevant information. Based on parameter-efficient finetuning on the foundation model, the proposed method achieves state-of-the-art performance on self-supervised depth estimation on SCARED dataset and zero-shot depth estimation on Hamlyn dataset, with 4\%$\sim$10\% lower error. The evaluation code of this work has been published on https://github.com/BaymaxShao/EndoMUST.
- Abstract(参考訳): 単眼深度推定とエゴモーション推定は,安定した,正確かつ効率的なロボット支援内視鏡におけるシーン認識とナビゲーションにおいて重要な課題である。
内視鏡的シーンにおける光の変動やスパーステクスチャに対処するために,光学的フロー,外観フロー,内在的画像分解といった複数の技術が既存の手法に導入されている。
しかし,複数のモジュールに対する効果的なトレーニング戦略は,内視鏡における自己監督深度推定のための照明問題と情報干渉の両方に対処することが依然として重要である。
そこで本研究では,多段効率のファインタニングを施した新しいフレームワークを提案する。
エンドツーエンドトレーニングの各段階において、プロセスは光学的フロー登録、マルチスケール画像分解、多重変換アライメントを含む3つのステップに分けられる。
各ステップにおいて、関連するネットワークのみが無関係な情報の干渉なしに訓練される。
基礎モデルに基づくパラメータ効率の微調整により,SCAREDデータセットの自己監督深度推定とHamlynデータセットのゼロショット深度推定を4\%$\sim$10\%低い誤差で実現した。
この研究の評価コードはhttps://github.com/BaymaxShao/EndoMUSTで公開されている。
関連論文リスト
- Occlusion-Aware Self-Supervised Monocular Depth Estimation for Weak-Texture Endoscopic Images [1.1084686909647639]
内視鏡的シーンに適した自己教師付き単眼深度推定ネットワークを提案する。
既存の方法は正確ではあるが、通常は一貫した照明を仮定する。
これらの変化は、誤った幾何学的解釈と信頼できない自己監督信号をもたらす。
論文 参考訳(メタデータ) (2025-04-24T14:12:57Z) - Advancing Depth Anything Model for Unsupervised Monocular Depth Estimation in Endoscopy [2.906891207990726]
本稿では,Depth Anything Modelのための新しい微調整戦略を提案する。
本手法は本態性に基づく教師なし単眼深度推定フレームワークと統合する。
提案手法は,トレーニング可能なパラメータ数を最小化しつつ,最先端性能を実現する。
論文 参考訳(メタデータ) (2024-09-12T03:04:43Z) - EndoOmni: Zero-Shot Cross-Dataset Depth Estimation in Endoscopy by Robust Self-Learning from Noisy Labels [4.99086145037811]
単一画像深度推定は、局所化、再構成、拡張現実といった内視鏡的タスクに不可欠である。
既存の手術シーンのほとんどの方法は、領域内深さの推定に焦点を合わせ、実際の応用性を制限する。
内視鏡のためのゼロショットクロスドメイン深度推定のための最初の基礎モデルであるEndo Omniを提案する。
論文 参考訳(メタデータ) (2024-09-09T08:46:45Z) - Self-STORM: Deep Unrolled Self-Supervised Learning for Super-Resolution Microscopy [55.2480439325792]
我々は、シーケンス固有のモデルベースのオートエンコーダをトレーニングすることで、そのようなデータの必要性を軽減する、深層無学習の自己教師付き学習を導入する。
提案手法は, 監視対象の性能を超過する。
論文 参考訳(メタデータ) (2024-03-25T17:40:32Z) - EndoDepthL: Lightweight Endoscopic Monocular Depth Estimation with
CNN-Transformer [0.0]
我々は,CNNとTransformerを統合してマルチスケール深度マップを推定する,EndoDepthLという新しい軽量ソリューションを提案する。
提案手法は,ネットワークアーキテクチャの最適化,マルチスケール拡張畳み込み,マルチチャネルアテンション機構の導入を含む。
内視鏡画像における単眼深度推定の性能をよりよく評価するために,新しい複雑性評価指標を提案する。
論文 参考訳(メタデータ) (2023-08-04T21:38:29Z) - The Surprising Effectiveness of Diffusion Models for Optical Flow and
Monocular Depth Estimation [42.48819460873482]
拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。
また,タスク固有のアーキテクチャや損失関数を使わずに,光学的フローと単眼深度の推定に優れることを示す。
論文 参考訳(メタデータ) (2023-06-02T21:26:20Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Towards Domain-agnostic Depth Completion [28.25756709062647]
既存の深度補完法は、しばしば特定のスパース深度型を目標とし、タスク領域をまたいだ一般化が不十分である。
各種センサで得られたスパース/セミデンス,ノイズ,および低分解能深度マップを完備する手法を提案する。
本手法は,最先端の深度補完法に対して優れたクロスドメイン一般化能力を示す。
論文 参考訳(メタデータ) (2022-07-29T04:10:22Z) - Learnable Patchmatch and Self-Teaching for Multi-Frame Depth Estimation in Monocular Endoscopy [16.233423010425355]
教師なしマルチフレーム単眼深度推定モデルを提案する。
提案モデルでは、学習可能なパッチマッチモジュールを統合し、低次および均質なテクスチャを持つ領域における識別能力を適応的に向上させる。
自己学習パラダイムの副産物として,テスト時により多くのフレームが入力されたときの深度予測を改善することができる。
論文 参考訳(メタデータ) (2022-05-30T12:11:03Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z) - Adversarial Domain Feature Adaptation for Bronchoscopic Depth Estimation [111.89519571205778]
そこで本研究では,深度推定のためのドメイン適応手法を提案する。
提案する2段階構造は,まず,ラベル付き合成画像を用いた深度推定ネットワークを教師付きで訓練する。
実験の結果,提案手法は実画像上でのネットワーク性能をかなりの差で向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-24T08:11:34Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - A parameter refinement method for Ptychography based on Deep Learning
concepts [55.41644538483948]
伝播距離、位置誤差、部分的コヒーレンスにおける粗いパラメトリゼーションは、しばしば実験の生存性を脅かす。
最新のDeep Learningフレームワークは、セットアップの不整合を自律的に補正するために使用され、ポチコグラフィーの再構築の質が向上する。
我々は,elettra シンクロトロン施設のツインミックビームラインで取得した合成データセットと実データの両方でシステムをテストした。
論文 参考訳(メタデータ) (2021-05-18T10:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。