論文の概要: Model-Agnostic Human Preference Inversion in Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.00879v1
- Date: Mon, 1 Apr 2024 03:18:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 23:36:00.992762
- Title: Model-Agnostic Human Preference Inversion in Diffusion Models
- Title(参考訳): 拡散モデルにおけるモデル非依存の人差インバージョン
- Authors: Jeeyung Kim, Ze Wang, Qiang Qiu,
- Abstract要約: 人間の好みに合わせて高品質なワンステップ画像生成を実現するための新しいサンプリング設計を提案する。
提案手法であるPrompt Adaptive Human Preference Inversion (PAHI) は,人間の好みに基づいて各プロンプトの雑音分布を最適化する。
実験により, 調整したノイズ分布は, 計算コストを極端に増加させるだけで, 画像品質を著しく向上させることを示した。
- 参考スコア(独自算出の注目度): 31.992947353231564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient text-to-image generation remains a challenging task due to the high computational costs associated with the multi-step sampling in diffusion models. Although distillation of pre-trained diffusion models has been successful in reducing sampling steps, low-step image generation often falls short in terms of quality. In this study, we propose a novel sampling design to achieve high-quality one-step image generation aligning with human preferences, particularly focusing on exploring the impact of the prior noise distribution. Our approach, Prompt Adaptive Human Preference Inversion (PAHI), optimizes the noise distributions for each prompt based on human preferences without the need for fine-tuning diffusion models. Our experiments showcase that the tailored noise distributions significantly improve image quality with only a marginal increase in computational cost. Our findings underscore the importance of noise optimization and pave the way for efficient and high-quality text-to-image synthesis.
- Abstract(参考訳): 拡散モデルにおける多段階サンプリングに伴う計算コストが高いため、効率的なテキスト・画像生成は依然として難しい課題である。
プレトレーニング拡散モデルの蒸留はサンプリング工程の短縮に成功しているが,低ステップ画像生成は品質面では不十分であることが多い。
本研究では,人間の好みに合わせた高品質なワンステップ画像生成を実現するための新しいサンプリング設計を提案する。
提案手法であるPrompt Adaptive Human Preference Inversion (PAHI) は、微調整拡散モデルを必要としない人間の好みに基づいて各プロンプトの雑音分布を最適化する。
実験により, 調整したノイズ分布は, 計算コストを極端に増加させるだけで, 画像品質を著しく向上させることを示した。
本研究は,高効率で高品質なテキスト・ツー・イメージ合成を実現するために,ノイズ最適化の重要性を強調した。
関連論文リスト
- Diffusion Posterior Proximal Sampling for Image Restoration [28.388405376136095]
拡散に基づく画像復元アルゴリズムは、事前訓練された拡散モデルを利用してデータ事前を利用する。
これらの戦略は、純白色雑音による雑音発生プロセスを開始し、各生成段階にランダムノイズを取り入れ、過度に滑らかな結果をもたらす。
本稿では拡散に基づく画像復元のための洗練されたパラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-25T04:24:28Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。
強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。
提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-20T08:10:43Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion [88.8198344514677]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計されたフレームワークであるAdaDiffを紹介する。
AdaDiffはポリシー勾配法を用いて最適化され、慎重に設計された報酬関数を最大化する。
提案手法は,固定された50ステップを用いて,ベースラインと比較して視覚的品質の点で同様の結果が得られる。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Accelerating Score-based Generative Models for High-Resolution Image
Synthesis [42.076244561541706]
スコアベース生成モデル(SGM)は、最近、将来性のある生成モデルのクラスとして登場した。
本研究では,SGMによる高分解能発生の加速について考察する。
本稿では,空間および周波数領域の構造的先行性を活用することによって,TDAS(Target Distribution Smpling Aware)手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T17:41:14Z) - DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from
Low-Dimensional Latents [26.17940552906923]
本稿では,拡散モデルフレームワーク内にVAEを統合する新しい生成フレームワークであるDiffuseVAEを紹介する。
提案モデルは高分解能サンプルを生成でき、標準ベンチマークの最先端モデルに匹敵する品質を示す。
論文 参考訳(メタデータ) (2022-01-02T06:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。