論文の概要: DepthFM: Fast Monocular Depth Estimation with Flow Matching
- arxiv url: http://arxiv.org/abs/2403.13788v1
- Date: Wed, 20 Mar 2024 17:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 15:48:57.790974
- Title: DepthFM: Fast Monocular Depth Estimation with Flow Matching
- Title(参考訳): DepthFM:フローマッチングによる高速単眼深度推定
- Authors: Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer,
- Abstract要約: この問題に対する現在の差別的アプローチは、ぼやけた人工物のために限られている。
最先端の生成法は、SDEの性質上、サンプリングが遅い。
解空間を通した直線軌道は効率と高品質を提供するので,フローマッチングを用いて効果的にフレーム化することができる。
- 参考スコア(独自算出の注目度): 22.206355073676082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular depth estimation is crucial for numerous downstream vision tasks and applications. Current discriminative approaches to this problem are limited due to blurry artifacts, while state-of-the-art generative methods suffer from slow sampling due to their SDE nature. Rather than starting from noise, we seek a direct mapping from input image to depth map. We observe that this can be effectively framed using flow matching, since its straight trajectories through solution space offer efficiency and high quality. Our study demonstrates that a pre-trained image diffusion model can serve as an adequate prior for a flow matching depth model, allowing efficient training on only synthetic data to generalize to real images. We find that an auxiliary surface normals loss further improves the depth estimates. Due to the generative nature of our approach, our model reliably predicts the confidence of its depth estimates. On standard benchmarks of complex natural scenes, our lightweight approach exhibits state-of-the-art performance at favorable low computational cost despite only being trained on little synthetic data.
- Abstract(参考訳): 単眼深度推定は多くの下流視覚タスクやアプリケーションにとって重要である。
この問題に対する現在の差別的アプローチは、ぼやけたアーティファクトによって制限されているが、最先端の生成手法は、SDEの性質によってサンプリングが遅くなる。
ノイズから始めるのではなく、入力画像から深度マップへの直接マッピングを求める。
解空間を通した直線軌道は効率と高品質を提供するので,フローマッチングを用いて効果的にフレーム化することができる。
本研究では, 事前学習した画像拡散モデルが, 流れマッチング深度モデルにおいて適切な事前学習となり, 合成データのみを効率的に訓練し, 実画像に一般化できることを実証した。
補助表面の正規化損失は、さらに深さ推定を改善する。
提案手法の生成特性から,本モデルはその深度推定の信頼性を確実に予測する。
複雑な自然のシーンの標準的なベンチマークでは、我々の軽量なアプローチは、少ない合成データでのみ訓練されているにもかかわらず、最先端の性能を好ましい低計算コストで示す。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Towards Unsupervised Blind Face Restoration using Diffusion Prior [12.69610609088771]
ブラインド顔復元法は、教師付き学習による大規模合成データセットの訓練において、顕著な性能を示した。
これらのデータセットは、手作りの画像分解パイプラインで、低品質の顔イメージをシミュレートすることによって生成されることが多い。
本稿では, 入力画像の集合のみを用いて, 劣化が不明で, 真理の目標がない場合にのみ, 復元モデルの微調整を行うことにより, この問題に対処する。
我々の最良のモデルは、合成と実世界の両方のデータセットの最先端の結果も達成します。
論文 参考訳(メタデータ) (2024-10-06T20:38:14Z) - Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think [53.2706196341054]
認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。
タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
論文 参考訳(メタデータ) (2024-09-17T16:58:52Z) - PrimeDepth: Efficient Monocular Depth Estimation with a Stable Diffusion Preimage [19.02295657801464]
この研究はゼロショット単眼深度推定の課題に対処する。
この分野での最近の進歩は、安定拡散のようなテキスト・ツー・イメージの基礎モデルを活用するというアイデアである。
拡散型アプローチの正の側面を保ちつつ、あるいは強化しながら、テスト時に高い効率を発揮できる方法であるPrimeDepthを提案する。
論文 参考訳(メタデータ) (2024-09-13T19:03:48Z) - Consistency Regularisation for Unsupervised Domain Adaptation in Monocular Depth Estimation [15.285720572043678]
整合性に基づく半教師付き学習問題として,単眼深度推定のための教師なし領域適応を定式化する。
複数の拡張ビューにまたがって一貫性を保ちながら、ソースドメイン上の予測を規則化するペアワイズ損失関数を導入する。
実験では, KITTI と NYUv2 の標準深度推定ベンチマークを用いて,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-05-27T23:32:06Z) - FlowDepth: Decoupling Optical Flow for Self-Supervised Monocular Depth Estimation [8.78717459496649]
本稿では,ダイナミックモーションフローモジュール (DMFM) が機構ベースのアプローチで光学フローを分離し,動的領域をワープし,ミスマッチ問題を解くフローDepthを提案する。
高フレック領域と低テクスチャ領域による光度誤差の不公平性については,入力と損失レベルでそれぞれDepth-Cue-Aware Blur(DCABlur)とCost-Volumeの空間損失を用いて解決する。
論文 参考訳(メタデータ) (2024-03-28T10:31:23Z) - The Surprising Effectiveness of Diffusion Models for Optical Flow and
Monocular Depth Estimation [42.48819460873482]
拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。
また,タスク固有のアーキテクチャや損失関数を使わずに,光学的フローと単眼深度の推定に優れることを示す。
論文 参考訳(メタデータ) (2023-06-02T21:26:20Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Occlusion-aware Unsupervised Learning of Depth from 4-D Light Fields [50.435129905215284]
4次元光場処理と解析のための教師なし学習に基づく深度推定法を提案する。
光場データの特異な幾何学構造に関する基礎知識に基づいて,光場ビューのサブセット間の角度コヒーレンスを探索し,深度マップを推定する。
提案手法は,従来の手法と同等の精度で計算コストを低減した深度マップを作成できる。
論文 参考訳(メタデータ) (2021-06-06T06:19:50Z) - A Plug-and-play Scheme to Adapt Image Saliency Deep Model for Video Data [54.198279280967185]
本稿では,ビデオデータに対して予め訓練された画像の鮮度深度モデルを弱めに再学習する新しいプラグイン・アンド・プレイ方式を提案する。
本手法は,既訓練画像の深度モデルに適応して高品質な映像の鮮度検出を実現するのに有効である。
論文 参考訳(メタデータ) (2020-08-02T13:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。