Fugu-MT 論文翻訳(概要): The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation

論文の概要: The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation

arxiv url: http://arxiv.org/abs/2306.01923v2
Date: Wed, 6 Dec 2023 04:19:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 18:47:19.870327
Title: The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation
Title（参考訳）: 拡散モデルによる光学的流れと単眼深度推定の驚くべき効果
Authors: Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet
Abstract要約: 拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。また,タスク固有のアーキテクチャや損失関数を使わずに,光学的フローと単眼深度の推定に優れることを示す。
参考スコア（独自算出の注目度）: 42.48819460873482
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Denoising diffusion probabilistic models have transformed image generation with their impressive fidelity and diversity. We show that they also excel in estimating optical flow and monocular depth, surprisingly, without task-specific architectures and loss functions that are predominant for these tasks. Compared to the point estimates of conventional regression-based methods, diffusion models also enable Monte Carlo inference, e.g., capturing uncertainty and ambiguity in flow and depth. With self-supervised pre-training, the combined use of synthetic and real data for supervised training, and technical innovations (infilling and step-unrolled denoising diffusion training) to handle noisy-incomplete training data, and a simple form of coarse-to-fine refinement, one can train state-of-the-art diffusion models for depth and optical flow estimation. Extensive experiments focus on quantitative performance against benchmarks, ablations, and the model's ability to capture uncertainty and multimodality, and impute missing values. Our model, DDVM (Denoising Diffusion Vision Model), obtains a state-of-the-art relative depth error of 0.074 on the indoor NYU benchmark and an Fl-all outlier rate of 3.26\% on the KITTI optical flow benchmark, about 25\% better than the best published method. For an overview see https://diffusion-vision.github.io.
Abstract（参考訳）: 拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。また,これらのタスクに支配的なタスク固有のアーキテクチャや損失関数がなければ,光学的フローと単眼深度の推定にも優れることを示す。従来の回帰に基づく手法の点推定と比較すると、拡散モデルは、流れと深さの不確かさと曖昧さを捉えるなど、モンテカルロ推論を可能にする。自己教師付き事前訓練、教師付きトレーニングのための合成データと実データの統合、ノイズのない不完全なトレーニングデータを扱う技術革新(補足と段階的に学習する拡散訓練)、および粗い微細化の簡単な形態により、深度と光フロー推定のための最先端拡散モデルを訓練することができる。広範な実験では、ベンチマーク、アブレーション、モデルの不確実性とマルチモダリティを捉える能力、欠落した値に対する定量的なパフォーマンスに焦点を当てている。我々のモデルDDVM(Denoising Diffusion Vision Model)は、室内NYUベンチマークで0.074の最先端相対深度誤差と、KITTIの光学フローベンチマークで3.26倍のFl-allアウトリー率を得る。概要はhttps://diffusion-vision.github.ioを参照。

関連論文リスト

One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Scaling Properties of Diffusion Models for Perceptual Tasks [39.89262997776814]
拡散モデルが知覚タスクのスケールトレーニングとテスト時間計算の利点を示す。我々のモデルは、データと計算量を大幅に減らし、最先端の手法と競合する性能を実現する。
論文参考訳（メタデータ） (2024-11-12T18:59:35Z)
Learning Diffusion Model from Noisy Measurement using Principled Expectation-Maximization Method [9.173055778539641]
本稿では,任意の破損型を持つ雑音データから拡散モデルを反復的に学習する,原則的予測最大化(EM)フレームワークを提案する。筆者らはモンテカルロ法を用いて,ノイズ測定からクリーンな画像を正確に推定し,次いで再構成画像を用いて拡散モデルを訓練した。
論文参考訳（メタデータ） (2024-10-15T03:54:59Z)
Unsupervised Monocular Depth Estimation Based on Hierarchical Feature-Guided Diffusion [21.939618694037108]
教師なし単分子深度推定は、地上の真実を示さずに訓練できるため、広く注目を集めている。我々は、教師なし単眼深度推定のために、生成ネットワーク間でよく収束する拡散モデルを用いる。このモデルは深度分布の学習と解釈の能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-06-14T07:31:20Z)
Digging into contrastive learning for robust depth estimation with diffusion models [55.62276027922499]
そこで我々はD4RDと呼ばれる新しい頑健な深度推定法を提案する。複雑な環境での性能劣化を軽減するために、拡散モデルに適した独自のコントラスト学習モードを備えている。実験では、D4RDは合成汚職データセットや現実世界の気象条件に関する最先端のソリューションを超越している。
論文参考訳（メタデータ） (2024-04-15T14:29:47Z)
PiRD: Physics-informed Residual Diffusion for Flow Field Reconstruction [5.06136344261226]
データ忠実度向上のためのCNNベースの手法は、トレーニング期間中の低忠実度データパターンと分布に依存している。提案したモデルである物理インフォームド残差拡散(Residual Diffusion)は、標準の低忠実度入力からデータの品質を高める能力を示す。実験結果から, 2次元乱流に対して, 再学習を必要とせず, 高品質な流れを効果的に再現できることが示唆された。
論文参考訳（メタデータ） (2024-04-12T11:45:51Z)
DepthFM: Fast Monocular Depth Estimation with Flow Matching [22.206355073676082]
この問題に対する現在の差別的アプローチは、ぼやけた人工物のために限られている。最先端の生成法は、SDEの性質上、サンプリングが遅い。解空間を通した直線軌道は効率と高品質を提供するので,フローマッチングを用いて効果的にフレーム化することができる。
論文参考訳（メタデータ） (2024-03-20T17:51:53Z)
Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。 2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文参考訳（メタデータ） (2023-12-20T03:32:58Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)
Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文参考訳（メタデータ） (2023-06-01T03:08:28Z)
CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文参考訳（メタデータ） (2023-05-29T07:49:44Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。