論文の概要: Model-Agnostic Human Preference Inversion in Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.00879v1
- Date: Mon, 1 Apr 2024 03:18:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 23:36:00.992762
- Title: Model-Agnostic Human Preference Inversion in Diffusion Models
- Title(参考訳): 拡散モデルにおけるモデル非依存の人差インバージョン
- Authors: Jeeyung Kim, Ze Wang, Qiang Qiu,
- Abstract要約: 人間の好みに合わせて高品質なワンステップ画像生成を実現するための新しいサンプリング設計を提案する。
提案手法であるPrompt Adaptive Human Preference Inversion (PAHI) は,人間の好みに基づいて各プロンプトの雑音分布を最適化する。
実験により, 調整したノイズ分布は, 計算コストを極端に増加させるだけで, 画像品質を著しく向上させることを示した。
- 参考スコア(独自算出の注目度): 31.992947353231564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient text-to-image generation remains a challenging task due to the high computational costs associated with the multi-step sampling in diffusion models. Although distillation of pre-trained diffusion models has been successful in reducing sampling steps, low-step image generation often falls short in terms of quality. In this study, we propose a novel sampling design to achieve high-quality one-step image generation aligning with human preferences, particularly focusing on exploring the impact of the prior noise distribution. Our approach, Prompt Adaptive Human Preference Inversion (PAHI), optimizes the noise distributions for each prompt based on human preferences without the need for fine-tuning diffusion models. Our experiments showcase that the tailored noise distributions significantly improve image quality with only a marginal increase in computational cost. Our findings underscore the importance of noise optimization and pave the way for efficient and high-quality text-to-image synthesis.
- Abstract(参考訳): 拡散モデルにおける多段階サンプリングに伴う計算コストが高いため、効率的なテキスト・画像生成は依然として難しい課題である。
プレトレーニング拡散モデルの蒸留はサンプリング工程の短縮に成功しているが,低ステップ画像生成は品質面では不十分であることが多い。
本研究では,人間の好みに合わせた高品質なワンステップ画像生成を実現するための新しいサンプリング設計を提案する。
提案手法であるPrompt Adaptive Human Preference Inversion (PAHI) は、微調整拡散モデルを必要としない人間の好みに基づいて各プロンプトの雑音分布を最適化する。
実験により, 調整したノイズ分布は, 計算コストを極端に増加させるだけで, 画像品質を著しく向上させることを示した。
本研究は,高効率で高品質なテキスト・ツー・イメージ合成を実現するために,ノイズ最適化の重要性を強調した。
関連論文リスト
- Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - Beta Sampling is All You Need: Efficient Image Generation Strategy for Diffusion Models using Stepwise Spectral Analysis [22.02829139522153]
拡散過程の画像スペクトル解析に基づく効率的な時間ステップサンプリング法を提案する。
従来の均一分布に基づく時間ステップサンプリングの代わりに,ベータ分布のようなサンプリング手法を導入する。
我々の仮説では、あるステップは画像の内容に大きな変化を示すが、他のステップは最小限に寄与する。
論文 参考訳(メタデータ) (2024-07-16T20:53:06Z) - Improved Noise Schedule for Diffusion Training [51.849746576387375]
本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。
我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
論文 参考訳(メタデータ) (2024-07-03T17:34:55Z) - Diffusion Posterior Proximal Sampling for Image Restoration [27.35952624032734]
我々は拡散に基づく画像復元のための洗練されたパラダイムを提案する。
具体的には,各生成段階における測定値と一致したサンプルを選択する。
選択に使用する候補サンプルの数は、タイムステップの信号対雑音比に基づいて適応的に決定される。
論文 参考訳(メタデータ) (2024-02-25T04:24:28Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。
本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。
我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文 参考訳(メタデータ) (2023-06-23T18:08:00Z) - Accelerating Score-based Generative Models for High-Resolution Image
Synthesis [42.076244561541706]
スコアベース生成モデル(SGM)は、最近、将来性のある生成モデルのクラスとして登場した。
本研究では,SGMによる高分解能発生の加速について考察する。
本稿では,空間および周波数領域の構造的先行性を活用することによって,TDAS(Target Distribution Smpling Aware)手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T17:41:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。