論文の概要: Zero-shot Monocular Metric Depth for Endoscopic Images
- arxiv url: http://arxiv.org/abs/2509.18642v1
- Date: Tue, 23 Sep 2025 04:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.70884
- Title: Zero-shot Monocular Metric Depth for Endoscopic Images
- Title(参考訳): 内視鏡画像におけるゼロショット単眼メートル深さ
- Authors: Nicolas Toussaint, Emanuele Colleoni, Ricardo Sanchez-Matilla, Joshua Sutcliffe, Vanessa Thompson, Muhammad Asad, Imanol Luengo, Danail Stoyanov,
- Abstract要約: そこで本研究では,実画像と非可視画像で評価された最先端(メトリックおよび相対)深度推定モデルのベンチマークについて述べる。
我々は,地上の真理メートル法深度とセグメンテーションマスクを組み合わせた内視鏡手術器具の新たな合成データセット(Endo Synth)を公表した。
合成データセットを用いた微調整深度基礎モデルでは、ほとんど見えない実データの精度をかなりのマージンで向上させることを示した。
- 参考スコア(独自算出の注目度): 9.205799953828896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular relative and metric depth estimation has seen a tremendous boost in the last few years due to the sharp advancements in foundation models and in particular transformer based networks. As we start to see applications to the domain of endoscopic images, there is still a lack of robust benchmarks and high-quality datasets in that area. This paper addresses these limitations by presenting a comprehensive benchmark of state-of-the-art (metric and relative) depth estimation models evaluated on real, unseen endoscopic images, providing critical insights into their generalisation and performance in clinical scenarios. Additionally, we introduce and publish a novel synthetic dataset (EndoSynth) of endoscopic surgical instruments paired with ground truth metric depth and segmentation masks, designed to bridge the gap between synthetic and real-world data. We demonstrate that fine-tuning depth foundation models using our synthetic dataset boosts accuracy on most unseen real data by a significant margin. By providing both a benchmark and a synthetic dataset, this work advances the field of depth estimation for endoscopic images and serves as an important resource for future research. Project page, EndoSynth dataset and trained weights are available at https://github.com/TouchSurgery/EndoSynth.
- Abstract(参考訳): ファンデーションモデルや特にトランスフォーマーベースのネットワークの急激な進歩により、モノクラー相対とメートル法深度推定はここ数年で大幅に向上した。
内視鏡画像の領域への応用を見始めると、その領域には堅牢なベンチマークと高品質なデータセットがまだ欠けている。
本稿では,実際の内視鏡画像から評価した最先端(メトリックおよび相対)深度推定モデルの総合的ベンチマークを提示し,臨床シナリオにおけるそれらの一般化と性能に関する重要な知見を提供する。
さらに,地上の真理距離深度とセグメンテーションマスクを組み合わせた内視鏡手術器具の合成データセット(EndoSynth)を導入,公開し,合成データと実世界のデータとのギャップを埋めるように設計された。
合成データセットを用いた微調整深度基礎モデルでは、ほとんど見えない実データの精度をかなりのマージンで向上させることを示した。
この研究は、ベンチマークと合成データセットの両方を提供することで、内視鏡画像の深度推定の分野を前進させ、将来の研究のための重要なリソースとなる。
プロジェクトページ、EndoSynthデータセット、トレーニングされたウェイトはhttps://github.com/TouchSurgery/EndoSynth.comで入手できる。
関連論文リスト
- Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Underwater Monocular Metric Depth Estimation: Real-World Benchmarks and Synthetic Fine-Tuning with Vision Foundation Models [0.0]
実世界の水中データセットを用いたゼロショットおよび微調整単分子メートル法深度推定モデルのベンチマークを示す。
その結果,地上データ(実データや合成データ)に基づいて訓練した大規模モデルでは,水中での作業は不十分であることがわかった。
本研究では,水中における単分子距離深度推定の詳細な評価と可視化を行う。
論文 参考訳(メタデータ) (2025-07-02T21:06:39Z) - Boosting Zero-shot Stereo Matching using Large-scale Mixed Images Sources in the Real World [8.56549004133167]
ステレオマッチング法は、密度の高いピクセル単位の基底真理ラベルに依存している。
ラベル付きデータの不足と、合成画像と実世界の画像のドメインギャップは、注目すべき課題である。
視覚基盤モデルと大規模混合画像ソースの両方を活用する新しいフレームワーク textbfBooSTer を提案する。
論文 参考訳(メタデータ) (2025-05-13T14:24:38Z) - SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data [78.70620682374624]
ハイレベルなテキスト記述に基づく表情画像データの合成のための新しいフレームワークであるSynFERを紹介する。
合成データの質と信頼性を確保するため,セマンティックガイダンス手法と擬似ラベル生成手法を提案する。
その結果, 提案手法の有効性と合成データの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-13T14:58:21Z) - Structure-preserving Image Translation for Depth Estimation in Colonoscopy Video [1.0485739694839669]
本稿では,構造保存型合成現実画像(sim2real)のパイプラインを提案する。
これにより、教師付き深度推定のために、大量のリアルな合成画像を生成することができる。
また,画像翻訳のプロセスを改善するために,臨床大腸内視鏡からの手書き配列のデータセットも提案する。
論文 参考訳(メタデータ) (2024-08-19T17:02:16Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Do More With What You Have: Transferring Depth-Scale from Labeled to Unlabeled Domains [43.16293941978469]
自己教師付き深度推定器は、ドメイン全体の絶対深度値と線形に相関する大規模予測をもたらす。
トレーニング前の2つのデータセットのフィールド・オブ・ビューの整合性は、両方のドメインに共通な線形関係をもたらすことを示す。
観測された特性を用いて、絶対深度ラベルを持つソースデータセットから、これらの測定を欠いた新しいターゲットデータセットへ、深度スケールを転送する。
論文 参考訳(メタデータ) (2023-03-14T07:07:34Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。