論文の概要: Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
- arxiv url: http://arxiv.org/abs/2409.11355v1
- Date: Tue, 17 Sep 2024 16:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 15:37:15.530655
- Title: Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think
- Title(参考訳): 微調整型画像共有拡散モデル(動画あり)
- Authors: Gonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe,
- Abstract要約: 認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。
タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
- 参考スコア(独自算出の注目度): 53.2706196341054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work showed that large diffusion models can be reused as highly precise monocular depth estimators by casting depth estimation as an image-conditional image generation task. While the proposed model achieved state-of-the-art results, high computational demands due to multi-step inference limited its use in many scenarios. In this paper, we show that the perceived inefficiency was caused by a flaw in the inference pipeline that has so far gone unnoticed. The fixed model performs comparably to the best previously reported configuration while being more than 200$\times$ faster. To optimize for downstream task performance, we perform end-to-end fine-tuning on top of the single-step model with task-specific losses and get a deterministic model that outperforms all other diffusion-based depth and normal estimation models on common zero-shot benchmarks. We surprisingly find that this fine-tuning protocol also works directly on Stable Diffusion and achieves comparable performance to current state-of-the-art diffusion-based depth and normal estimation models, calling into question some of the conclusions drawn from prior works.
- Abstract(参考訳): 近年の研究では、画像条件の画像生成タスクとして深度推定をキャストすることにより、大きな拡散モデルを高精度な単眼深度推定器として再利用できることが示されている。
提案したモデルは最先端の結果を得たが、多段階推論による高い計算要求は、多くのシナリオでの使用を制限した。
本稿では,これまで気付かれていなかった推論パイプラインの欠陥によって,認識された非効率が引き起こされたことを示す。
固定モデルは、200$\times$よりも高速で、これまで報告された最も優れた構成と互換性がある。
ダウンストリームタスク性能を最適化するために、タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、一般的なゼロショットベンチマークにおいて、他の拡散ベース深さおよび正規推定モデルよりも優れた決定論的モデルを得る。
この微調整プロトコルは、安定拡散に直接作用し、現在の最先端拡散に基づく深さと正規推定モデルに匹敵する性能を達成し、先行研究から引き出された結論のいくつかを疑問視する。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - PrimeDepth: Efficient Monocular Depth Estimation with a Stable Diffusion Preimage [19.02295657801464]
この研究はゼロショット単眼深度推定の課題に対処する。
この分野での最近の進歩は、安定拡散のようなテキスト・ツー・イメージの基礎モデルを活用するというアイデアである。
拡散型アプローチの正の側面を保ちつつ、あるいは強化しながら、テスト時に高い効率を発揮できる方法であるPrimeDepthを提案する。
論文 参考訳(メタデータ) (2024-09-13T19:03:48Z) - Bayesian Conditioned Diffusion Models for Inverse Problems [11.67269909384503]
拡散モデルは、前方測定演算子に基づく逆問題を含む多くの画像再構成タスクにおいて優れている。
本稿では,所望の画像の条件分布に関連付けられたスコア関数に基づく拡散モデルBCDMのための新しいベイズ条件付け手法を提案する。
提案手法を用いて,画像処理,デブロアリング,超高解像度化,及びインペイントにおける最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-14T07:13:03Z) - DepthFM: Fast Monocular Depth Estimation with Flow Matching [22.206355073676082]
この問題に対する現在の差別的アプローチは、ぼやけた人工物のために限られている。
最先端の生成法は、SDEの性質上、サンプリングが遅い。
解空間を通した直線軌道は効率と高品質を提供するので,フローマッチングを用いて効果的にフレーム化することができる。
論文 参考訳(メタデータ) (2024-03-20T17:51:53Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Variational Diffusion Models [33.0719137062396]
本稿では,画像密度推定ベンチマークの最先端可能性を求める拡散モデルについて紹介する。
差分下界 (VLB) は, 拡散したデータの信号対雑音比において, 著しく短い表現に単純化されることを示す。
論文 参考訳(メタデータ) (2021-07-01T17:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。