Fugu-MT 論文翻訳(概要): MetricGold: Leveraging Text-To-Image Latent Diffusion Models for Metric Depth Estimation

論文の概要: MetricGold: Leveraging Text-To-Image Latent Diffusion Models for Metric Depth Estimation

arxiv url: http://arxiv.org/abs/2411.10886v1
Date: Sat, 16 Nov 2024 20:59:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.402398
Title: MetricGold: Leveraging Text-To-Image Latent Diffusion Models for Metric Depth Estimation
Title（参考訳）: MetricGold: 距離推定のためのテキストから画像への遅延拡散モデル
Authors: Ansh Shah, K Madhava Krishna,
Abstract要約: MetricGoldは、生成拡散モデルの豊富な先行値を利用して、メートル法深さ推定を改善する新しいアプローチである。我々の実験は、多様なデータセットをまたいだ堅牢な一般化を実証し、よりシャープで高品質なメートル法深さ推定を導出する。
参考スコア（独自算出の注目度）: 9.639797094021988
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recovering metric depth from a single image remains a fundamental challenge in computer vision, requiring both scene understanding and accurate scaling. While deep learning has advanced monocular depth estimation, current models often struggle with unfamiliar scenes and layouts, particularly in zero-shot scenarios and when predicting scale-ergodic metric depth. We present MetricGold, a novel approach that harnesses generative diffusion model's rich priors to improve metric depth estimation. Building upon recent advances in MariGold, DDVM and Depth Anything V2 respectively, our method combines latent diffusion, log-scaled metric depth representation, and synthetic data training. MetricGold achieves efficient training on a single RTX 3090 within two days using photo-realistic synthetic data from HyperSIM, VirtualKitti, and TartanAir. Our experiments demonstrate robust generalization across diverse datasets, producing sharper and higher quality metric depth estimates compared to existing approaches.
Abstract（参考訳）: 単一の画像からメートル法深度を復元することは、シーン理解と正確なスケーリングの両方を必要とする、コンピュータビジョンの基本的な課題である。ディープラーニングは高度な単眼深度推定を行うが、現在のモデルは、特にゼロショットシナリオやスケール・エルゴディックなメートル法深度予測において、馴染みのないシーンやレイアウトに悩まされることが多い。本稿では, 生成拡散モデルのリッチな先行値を利用する新しい手法であるMetricGoldを紹介し, 距離深さ推定を改善する。近年のMariGold, DDVM, Depth Anything V2の進歩に基づき, 潜時拡散, 対数スケールのメートル法深度表現, 合成データトレーニングを組み合わせた手法を提案する。 MetricGoldは、HyperSIM、VirtualKitti、TartanAirのフォトリアリスティック合成データを使用して、2日以内に単一のRTX 3090の効率的なトレーニングを行う。我々の実験は、多様なデータセットをまたいだ堅牢な一般化を実証し、既存の手法と比較して、よりシャープで高品質なメートル法深度推定を導出する。

関連論文リスト

Region-aware Depth Scale Adaptation with Sparse Measurements [8.532410904912922]
本研究では,基礎モデルの相対スケール予測を計量スケールの深さに適応させるために,非学習に基づくアプローチを導入する。本手法では, 再訓練も微調整も必要とせず, 元の基礎モデルの強力な一般化能力を保っている。
論文参考訳（メタデータ） (2025-07-20T09:36:57Z)
Depth Anything with Any Prior [64.39991799606146]
Prior Depth Anythingは、深さ測定における不完全だが正確な計量情報と深さ予測における相対的だが完全な幾何学的構造を組み合わせたフレームワークである。本研究では, 単眼深度推定(MDE)モデルを構築し, 深度推定の固有ノイズを改良する。われわれのモデルは、7つの現実世界のデータセットにまたがる深度補完、超高解像度、インパインティングという、印象的なゼロショットの一般化を見せている。
論文参考訳（メタデータ） (2025-05-15T17:59:50Z)
DEPTHOR: Depth Enhancement from a Practical Light-Weight dToF Sensor and RGB Image [8.588871458005114]
本稿では,コンピュータビジョンにおける深度向上のための新しい補完方式DEPTHORを提案する。まず、合成データセットの正確な基底真理から実世界のdToFデータをシミュレートし、ノイズロバストトレーニングを可能にする。第2に,グローバルな深度関係と文脈情報を利用して,単眼深度推定(MDE)を組み込んだ新しいネットワークを設計し,課題領域の予測を改善する。
論文参考訳（メタデータ） (2025-04-02T11:02:21Z)
Distilling Monocular Foundation Model for Fine-grained Depth Completion [17.603217168518356]
本研究では,深度調整のための2段階の知識蒸留フレームワークを提案する。第1段階では、自然画像から多様なトレーニングデータを生成し、幾何学的知識を蒸留して深度補正を行う。第2段階では、実世界のデータセットを微調整する際に、スケールとシフト不変の損失を用いて実世界のスケールを学習する。
論文参考訳（メタデータ） (2025-03-21T09:34:01Z)
EDADepth: Enhanced Data Augmentation for Monocular Depth Estimation [4.477063987845632]
EDADepthは、追加のトレーニングデータを用いることなく単眼深度を推定する拡張データ拡張手法である。我々は、テキスト埋め込みのより良い抽出にBEiT事前学習セマンティックセマンティックセマンティクスモデルを用いる。本モデルでは,NYUv2 と KITTI のデータセット上での delta3 測定結果(SOTA)が得られた。
論文参考訳（メタデータ） (2024-09-10T03:25:24Z)
TanDepth: Leveraging Global DEMs for Metric Monocular Depth Estimation in UAVs [5.6168844664788855]
本研究は,推定時間における相対的推定値から計量深度値を求めるための,実践的なオンラインスケール回復手法であるTanDepthを提案する。本手法は無人航空機(UAV)の用途に応用され,GDEM(Global Digital Elevation Models)のスパース計測をカメラビューに投影することで活用する。推定深度マップから接地点を選択して、投影された基準点と相関するクラスシミュレーションフィルタへの適応を示す。
論文参考訳（メタデータ） (2024-09-08T15:54:43Z)
ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文参考訳（メタデータ） (2024-07-11T05:11:56Z)
Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation [20.230238670888454]
本稿では,アフィン不変な単分子深度推定法であるMarigoldを紹介する。合成トレーニングデータのみを使用して、単一のGPU上で数日で微調整できる。特定のケースで20%以上のパフォーマンス向上を含む、幅広いデータセットで最先端のパフォーマンスを提供する。
論文参考訳（メタデータ） (2023-12-04T18:59:13Z)
Metrically Scaled Monocular Depth Estimation through Sparse Priors for Underwater Robots [0.0]
三角特徴量からのスパース深度測定を融合して深度予測を改善する深度学習モデルを定式化する。このネットワークは、前方に見える水中データセットFLSeaで教師ありの方法で訓練されている。この方法は、ラップトップGPUで160FPS、単一のCPUコアで7FPSで実行することで、リアルタイムのパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-10-25T16:32:31Z)
Robust Geometry-Preserving Depth Estimation Using Differentiable Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文参考訳（メタデータ） (2023-09-18T12:36:39Z)
Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文参考訳（メタデータ） (2023-03-21T18:47:34Z)
RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation [27.679479140943503]
本研究では,シーン深さのスケール不変性を学習し,自己教師付き単眼深度推定法(RA-Depth)を提案する。 RA-Depthは最先端の性能を達成し、解像度適応の優れた能力を示す。
論文参考訳（メタデータ） (2022-07-25T08:49:59Z)
SelfTune: Metrically Scaled Monocular Depth Estimation through Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文参考訳（メタデータ） (2022-03-10T12:28:42Z)
Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。 The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文参考訳（メタデータ） (2021-03-07T00:08:21Z)
Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文参考訳（メタデータ） (2020-11-26T04:04:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。