論文の概要: Underwater Monocular Metric Depth Estimation: Real-World Benchmarks and Synthetic Fine-Tuning with Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2507.02148v2
- Date: Thu, 10 Jul 2025 14:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 12:24:00.04044
- Title: Underwater Monocular Metric Depth Estimation: Real-World Benchmarks and Synthetic Fine-Tuning with Vision Foundation Models
- Title(参考訳): 水中単分子深度推定:実世界のベンチマークと視覚基礎モデルを用いた合成微調整
- Authors: Zijie Cai, Christopher Metzler,
- Abstract要約: 実世界の水中データセットを用いたゼロショットおよび微調整単分子メートル法深度推定モデルのベンチマークを示す。
その結果,地上データ(実データや合成データ)に基づいて訓練した大規模モデルでは,水中での作業は不十分であることがわかった。
本研究では,水中における単分子距離深度推定の詳細な評価と可視化を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular depth estimation has recently progressed beyond ordinal depth to provide metric depth predictions. However, its reliability in underwater environments remains limited due to light attenuation and scattering, color distortion, turbidity, and the lack of high-quality metric ground truth data. In this paper, we present a comprehensive benchmark of zero-shot and fine-tuned monocular metric depth estimation models on real-world underwater datasets with metric depth annotations, including FLSea and SQUID. We evaluated a diverse set of state-of-the-art Vision Foundation Models across a range of underwater conditions and depth ranges. Our results show that large-scale models trained on terrestrial data (real or synthetic) are effective in in-air settings, but perform poorly underwater due to significant domain shifts. To address this, we fine-tune Depth Anything V2 with a ViT-S backbone encoder on a synthetic underwater variant of the Hypersim dataset, which we simulated using a physically based underwater image formation model. Our fine-tuned model consistently improves performance across all benchmarks and outperforms baselines trained only on the clean in-air Hypersim dataset. This study presents a detailed evaluation and visualization of monocular metric depth estimation in underwater scenes, emphasizing the importance of domain adaptation and scale-aware supervision for achieving robust and generalizable metric depth predictions using foundation models in challenging environments.
- Abstract(参考訳): 単分子深度推定は、最近、メートル法深度予測を提供するために、順序深度を超えて進んでいる。
しかし、水中環境における信頼性は、光の減衰と散乱、色歪み、濁度、および高品質な計量基底真理データの欠如により制限されている。
本稿では,FLSea や SQUID を含む実世界の水中データを用いたゼロショットおよび微調整単分子距離推定モデルの総合的なベンチマークを行う。
我々は,様々な水中環境と深度範囲にまたがって,最先端のビジョンファウンデーションモデルの評価を行った。
その結果、地上データ(実データや合成データ)に基づいて訓練した大規模モデルは、水中環境において有効であるが、大きなドメインシフトのため水中での作業は不十分であることが示唆された。
この問題に対処するために、我々はHypersimデータセットの合成水中変種にVT-Sバックボーンエンコーダを装着し、物理的にベースとした水中画像形成モデルを用いてシミュレーションを行った。
我々の微調整モデルは、クリーンな空気中のHypersimデータセットに基づいてトレーニングされたすべてのベンチマークとベースラインを上回るパフォーマンスを一貫して改善します。
本研究は, 水中における単眼的メートル法深度推定の詳細な評価と可視化を行い, 挑戦的環境における基礎モデルを用いて, 堅牢で一般化可能なメートル法深度予測を実現するために, 領域適応とスケール・アウェア・インスペクションの重要性を強調した。
関連論文リスト
- AQUA20: A Benchmark Dataset for Underwater Species Classification under Challenging Conditions [1.2289361708127877]
本稿では,20種の海面画像8,171点からなる総合的なベンチマークデータセットであるAqua20を紹介する。
13種類の最先端ディープラーニングモデルを評価し, 課題条件下での海洋生物分類における性能評価を行った。
結果、ConvNeXtは98.82%、Top-1は90.69%、F1スコアは88.92%、パラメータサイズは適度に大きい。
論文 参考訳(メタデータ) (2025-06-20T19:54:35Z) - Plenodium: UnderWater 3D Scene Reconstruction with Plenoptic Medium Representation [31.47797579690604]
Plenodiumは、オブジェクトと参加メディアの両方を共同でモデリングできる3D表現フレームワークである。
ビュー依存モデリングにのみ依存する既存の媒体表現とは対照的に,本手法では指向性情報と位置情報の両方を包含する。
実世界の水中データセットを用いた実験により,本手法は3次元再構成において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2025-05-27T14:37:58Z) - UWSAM: Segment Anything Model Guided Underwater Instance Segmentation and A Large-scale Benchmark Dataset [62.00529957144851]
大規模な水中インスタンスセグメンテーションデータセットであるUIIS10Kを提案する。
次に,水中インスタンスの自動・高精度セグメンテーションのための効率的なモデルであるUWSAMを紹介する。
複数の水中インスタンスデータセット上での最先端手法よりも優れた性能向上を実現し,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2025-05-21T14:36:01Z) - Dense Geometry Supervision for Underwater Depth Estimation [0.0]
本稿では,水中環境における単分子深度推定法における既存の課題に対処する新しい手法を提案する。
多視点深度推定を用いて,水中シナリオに適した経済的に効率的なデータセットを構築した。
本研究では,テクスチャキューからの深度情報を効果的に活用し,統合することを目的としたテクスチャ深度融合モジュールを提案する。
論文 参考訳(メタデータ) (2025-04-25T10:27:25Z) - FAFA: Frequency-Aware Flow-Aided Self-Supervision for Underwater Object Pose Estimation [65.01601309903971]
無人水中車両(UUV)の6次元ポーズ推定のための周波数認識フロー支援フレームワークであるFAFAを紹介する。
我々のフレームワークは、3DモデルとRGB画像のみに依存しており、実際のポーズアノテーションや奥行きのような非モダリティデータの必要性を軽減しています。
本研究では,一般的な水中オブジェクトポーズベンチマークにおけるFAFAの有効性を評価し,最先端手法と比較して顕著な性能向上を示した。
論文 参考訳(メタデータ) (2024-09-25T03:54:01Z) - Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset [60.14089302022989]
水中視覚タスクは複雑な水中状況のため、しばしばセグメンテーションの精度が低い。
第1次大規模水中塩分分節データセット(USIS10K)を構築した。
本研究では,水中ドメインに特化してセグメンツ・ア・シング・モデル(USIS-SAM)に基づく水中塩分・インスタンス・アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-10T06:17:33Z) - Improving Underwater Visual Tracking With a Large Scale Dataset and
Image Enhancement [70.2429155741593]
本稿では,水中ビジュアルオブジェクト追跡(UVOT)のための新しいデータセットと汎用トラッカ拡張手法を提案する。
水中環境は、一様でない照明条件、視界の低さ、鋭さの欠如、コントラストの低さ、カモフラージュ、懸濁粒子からの反射を示す。
本研究では,追尾品質の向上に特化して設計された水中画像強調アルゴリズムを提案する。
この手法により、最先端(SOTA)ビジュアルトラッカーの最大5.0%のAUCの性能が向上した。
論文 参考訳(メタデータ) (2023-08-30T07:41:26Z) - An evaluation of deep learning models for predicting water depth
evolution in urban floods [59.31940764426359]
高空間分解能水深予測のための異なる深層学習モデルの比較を行った。
深層学習モデルはCADDIESセル-オートマタフラッドモデルによってシミュレーションされたデータを再現するために訓練される。
その結果,ディープラーニングモデルでは,他の手法に比べて誤差が低いことがわかった。
論文 参考訳(メタデータ) (2023-02-20T16:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。