論文の概要: DepthFM: Fast Monocular Depth Estimation with Flow Matching
- arxiv url: http://arxiv.org/abs/2403.13788v1
- Date: Wed, 20 Mar 2024 17:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 15:48:57.790974
- Title: DepthFM: Fast Monocular Depth Estimation with Flow Matching
- Title(参考訳): DepthFM:フローマッチングによる高速単眼深度推定
- Authors: Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer,
- Abstract要約: この問題に対する現在の差別的アプローチは、ぼやけた人工物のために限られている。
最先端の生成法は、SDEの性質上、サンプリングが遅い。
解空間を通した直線軌道は効率と高品質を提供するので,フローマッチングを用いて効果的にフレーム化することができる。
- 参考スコア(独自算出の注目度): 22.206355073676082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular depth estimation is crucial for numerous downstream vision tasks and applications. Current discriminative approaches to this problem are limited due to blurry artifacts, while state-of-the-art generative methods suffer from slow sampling due to their SDE nature. Rather than starting from noise, we seek a direct mapping from input image to depth map. We observe that this can be effectively framed using flow matching, since its straight trajectories through solution space offer efficiency and high quality. Our study demonstrates that a pre-trained image diffusion model can serve as an adequate prior for a flow matching depth model, allowing efficient training on only synthetic data to generalize to real images. We find that an auxiliary surface normals loss further improves the depth estimates. Due to the generative nature of our approach, our model reliably predicts the confidence of its depth estimates. On standard benchmarks of complex natural scenes, our lightweight approach exhibits state-of-the-art performance at favorable low computational cost despite only being trained on little synthetic data.
- Abstract(参考訳): 単眼深度推定は多くの下流視覚タスクやアプリケーションにとって重要である。
この問題に対する現在の差別的アプローチは、ぼやけたアーティファクトによって制限されているが、最先端の生成手法は、SDEの性質によってサンプリングが遅くなる。
ノイズから始めるのではなく、入力画像から深度マップへの直接マッピングを求める。
解空間を通した直線軌道は効率と高品質を提供するので,フローマッチングを用いて効果的にフレーム化することができる。
本研究では, 事前学習した画像拡散モデルが, 流れマッチング深度モデルにおいて適切な事前学習となり, 合成データのみを効率的に訓練し, 実画像に一般化できることを実証した。
補助表面の正規化損失は、さらに深さ推定を改善する。
提案手法の生成特性から,本モデルはその深度推定の信頼性を確実に予測する。
複雑な自然のシーンの標準的なベンチマークでは、我々の軽量なアプローチは、少ない合成データでのみ訓練されているにもかかわらず、最先端の性能を好ましい低計算コストで示す。
関連論文リスト
- FlowDepth: Decoupling Optical Flow for Self-Supervised Monocular Depth Estimation [8.78717459496649]
本稿では,ダイナミックモーションフローモジュール (DMFM) が機構ベースのアプローチで光学フローを分離し,動的領域をワープし,ミスマッチ問題を解くフローDepthを提案する。
高フレック領域と低テクスチャ領域による光度誤差の不公平性については,入力と損失レベルでそれぞれDepth-Cue-Aware Blur(DCABlur)とCost-Volumeの空間損失を用いて解決する。
論文 参考訳(メタデータ) (2024-03-28T10:31:23Z) - Speeding up Photoacoustic Imaging using Diffusion Models [0.0]
光音響顕微鏡(PAM)は、光学的および音響的イメージングを統合し、組織内の光学吸収成分を検出するための浸透深度を向上させる。
レーザーパルス繰り返し速度による速度制限により、計算手法の潜在的な役割は、PAMイメージングの加速において強調される。
PAM画像の高速化に拡散モデルを用いた,新しい高適応DiffPamアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:34:27Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - The Surprising Effectiveness of Diffusion Models for Optical Flow and
Monocular Depth Estimation [42.48819460873482]
拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。
また,タスク固有のアーキテクチャや損失関数を使わずに,光学的フローと単眼深度の推定に優れることを示す。
論文 参考訳(メタデータ) (2023-06-02T21:26:20Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - FG-Depth: Flow-Guided Unsupervised Monocular Depth Estimation [17.572459787107427]
そこで本研究では,典型的な測光損失を代替する流量蒸留損失と,不適切な画素を除去するための前向きフローベースマスクを提案する。
提案手法は,KITTIとNYU-Depth-v2の両方のデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-01-20T04:02:13Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Score-based diffusion models for accelerated MRI [35.3148116010546]
本研究では,画像中の逆問題を容易に解けるような条件分布からデータをサンプリングする方法を提案する。
我々のモデルは、訓練のためにのみ等級画像を必要とするが、複雑な値のデータを再構成することができ、さらに並列画像まで拡張できる。
論文 参考訳(メタデータ) (2021-10-08T08:42:03Z) - Occlusion-aware Unsupervised Learning of Depth from 4-D Light Fields [50.435129905215284]
4次元光場処理と解析のための教師なし学習に基づく深度推定法を提案する。
光場データの特異な幾何学構造に関する基礎知識に基づいて,光場ビューのサブセット間の角度コヒーレンスを探索し,深度マップを推定する。
提案手法は,従来の手法と同等の精度で計算コストを低減した深度マップを作成できる。
論文 参考訳(メタデータ) (2021-06-06T06:19:50Z) - Learning Topology from Synthetic Data for Unsupervised Depth Completion [66.26787962258346]
画像から高密度深度マップとスパース深度測定を推定する手法を提案する。
我々は,疎点雲と密度の高い自然形状の関係を学習し,その画像を用いて予測深度マップの検証を行う。
論文 参考訳(メタデータ) (2021-06-06T00:21:12Z) - A Plug-and-play Scheme to Adapt Image Saliency Deep Model for Video Data [54.198279280967185]
本稿では,ビデオデータに対して予め訓練された画像の鮮度深度モデルを弱めに再学習する新しいプラグイン・アンド・プレイ方式を提案する。
本手法は,既訓練画像の深度モデルに適応して高品質な映像の鮮度検出を実現するのに有効である。
論文 参考訳(メタデータ) (2020-08-02T13:23:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。