論文の概要: Preserving Image Properties Through Initializations in Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.02097v1
- Date: Thu, 4 Jan 2024 06:55:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 15:42:07.715022
- Title: Preserving Image Properties Through Initializations in Diffusion Models
- Title(参考訳): 拡散モデルの初期化による画像特性の保存
- Authors: Jeffrey Zhang, Shao-Yu Chang, Kedan Li, David Forsyth
- Abstract要約: 現在適用されている安定拡散法は,小売写真の要求を尊重しないことを示す。
非常にノイズの多い画像でデノイザーを訓練する通常の習慣は、推論中に一貫性のない画像を生成する。
均一な背景を持つ中央の小売商品画像で訓練されたネットワークは、不規則な背景を持つ画像を生成する。
本手法は,拡散法における制御可能性を高めるために,他の制御法と良好に相互作用することができる。
- 参考スコア(独自算出の注目度): 6.804700416902898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retail photography imposes specific requirements on images. For instance,
images may need uniform background colors, consistent model poses, centered
products, and consistent lighting. Minor deviations from these standards impact
a site's aesthetic appeal, making the images unsuitable for use. We show that
Stable Diffusion methods, as currently applied, do not respect these
requirements. The usual practice of training the denoiser with a very noisy
image and starting inference with a sample of pure noise leads to inconsistent
generated images during inference. This inconsistency occurs because it is easy
to tell the difference between samples of the training and inference
distributions. As a result, a network trained with centered retail product
images with uniform backgrounds generates images with erratic backgrounds. The
problem is easily fixed by initializing inference with samples from an
approximation of noisy images. However, in using such an approximation, the
joint distribution of text and noisy image at inference time still slightly
differs from that at training time. This discrepancy is corrected by training
the network with samples from the approximate noisy image distribution.
Extensive experiments on real application data show significant qualitative and
quantitative improvements in performance from adopting these procedures.
Finally, our procedure can interact well with other control-based methods to
further enhance the controllability of diffusion-based methods.
- Abstract(参考訳): 小売撮影は、画像に特定の要件を課す。
例えば、画像には均一な背景色、一貫したモデルポーズ、中心となる製品、一貫した照明が必要である。
これらの標準からのわずかな逸脱は、サイトの美的魅力に影響を与え、画像の使用に適さない。
現在適用されている安定拡散法は,これらの要件を尊重しないことを示す。
ノイズの多い画像でデノイザーを訓練し、純粋なノイズのサンプルで推論を開始するという通常のプラクティスは、推論中に生成された画像の一貫性を損なう。
この矛盾は、トレーニングのサンプルと推論の分布の違いを容易に判断できるため起こる。
その結果、一様背景を持つ中央の小売商品画像で訓練されたネットワークは、不規則な背景を持つ画像を生成する。
この問題は、ノイズ画像の近似からサンプルによる推論を初期化することで容易に解決できる。
しかし、そのような近似を用いる場合、推論時のテキストとノイズ画像の関節分布は、トレーニング時とまだ若干異なる。
この不一致は、近似雑音画像分布からサンプルとネットワークを訓練することにより補正される。
実アプリケーションデータに対する大規模な実験は、これらの手順の採用によるパフォーマンスの質的かつ定量的な改善を示す。
最後に,本手法は他の制御ベース手法とうまく相互作用し,拡散ベース手法の制御性をさらに高めることができる。
関連論文リスト
- Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment [56.609042046176555]
現在の方法では、各画像がノイズ空間全体に拡散し、ノイズ層内の各点で全ての画像が混合される。
Inmiscible Diffusionを提案する。これはノイズデータマッピングのランダムな混合を改善するためのシンプルで効果的な方法である。
我々のアプローチは極めて単純で、各画像の拡散可能な領域を制限するために1行のコードしか必要としない。
論文 参考訳(メタデータ) (2024-06-18T06:20:42Z) - Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Representing Noisy Image Without Denoising [91.73819173191076]
ラドン空間におけるフラクショナルオーダーモーメント(FMR)は、ノイズの多い画像から直接ロバストな表現を引き出すように設計されている。
従来の整数順序法とは異なり、我々の研究は特別な場合のような古典的手法を取り入れたより汎用的な設計である。
論文 参考訳(メタデータ) (2023-01-18T10:13:29Z) - Markup-to-Image Diffusion Models with Scheduled Sampling [111.30188533324954]
画像生成の最近の進歩に基づき,画像にマークアップを描画するためのデータ駆動型アプローチを提案する。
このアプローチは拡散モデルに基づいており、デノナイジング操作のシーケンスを用いてデータの分布をパラメータ化する。
数式(La)、テーブルレイアウト(HTML)、シート音楽(LilyPond)、分子画像(SMILES)の4つのマークアップデータセットの実験を行った。
論文 参考訳(メタデータ) (2022-10-11T04:56:12Z) - Low-Light Image Enhancement with Normalizing Flow [92.52290821418778]
本稿では,この一対多の関係を正規化フローモデルを用いてモデル化する。
低照度画像/特徴を条件として取り、通常露光される画像の分布をガウス分布にマッピングすることを学ぶ可逆ネットワーク。
既存のベンチマークデータセットによる実験結果から,提案手法はより定量的,質的な結果を得ることができ,照度が良く,ノイズやアーティファクトが小さく,色も豊かになることがわかった。
論文 参考訳(メタデータ) (2021-09-13T12:45:08Z) - A low-rank representation for unsupervised registration of medical
images [10.499611180329804]
本稿では,低ランク表現,すなわちRegnet-LRRに基づく新しい手法を提案する。
低ランク表現は、モデルの能力と堅牢性を高め、ノイズの多いデータ登録シナリオにおいて大幅な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-05-20T07:04:10Z) - Transform consistency for learning with noisy labels [9.029861710944704]
単一のネットワークのみを用いてクリーンサンプルを同定する手法を提案する。
きれいなサンプルは元のイメージおよび変形したイメージのための一貫した予測に達することを好みます。
ノイズラベルの負の影響を軽減するために,オフラインのハードラベルとオンラインのソフトラベルを用いて分類損失を設計する。
論文 参考訳(メタデータ) (2021-03-25T14:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。