論文の概要: Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2409.06493v1
- Date: Mon, 9 Sep 2024 16:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 17:48:44.116279
- Title: Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおける最適逆幅トレードオフの解明
- Authors: Rohit Jena, Ali Taghibakhshi, Sahil Jain, Gerald Shen, Nima Tajbakhsh, Arash Vahdat,
- Abstract要約: Annealed Importance Guidance(AIG)は、Annealed Importance Smplingにインスパイアされた推論時正規化である。
安定拡散モデルに対するAIGの利点を実証し、報酬最適化と画像の多様性の最適なバランスを図った。
- 参考スコア(独自算出の注目度): 20.70550870149442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) diffusion models have become prominent tools for generating high-fidelity images from text prompts. However, when trained on unfiltered internet data, these models can produce unsafe, incorrect, or stylistically undesirable images that are not aligned with human preferences. To address this, recent approaches have incorporated human preference datasets to fine-tune T2I models or to optimize reward functions that capture these preferences. Although effective, these methods are vulnerable to reward hacking, where the model overfits to the reward function, leading to a loss of diversity in the generated images. In this paper, we prove the inevitability of reward hacking and study natural regularization techniques like KL divergence and LoRA scaling, and their limitations for diffusion models. We also introduce Annealed Importance Guidance (AIG), an inference-time regularization inspired by Annealed Importance Sampling, which retains the diversity of the base model while achieving Pareto-Optimal reward-diversity tradeoffs. Our experiments demonstrate the benefits of AIG for Stable Diffusion models, striking the optimal balance between reward optimization and image diversity. Furthermore, a user study confirms that AIG improves diversity and quality of generated images across different model architectures and reward functions.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは,テキスト・プロンプトから高忠実度画像を生成するための重要なツールとなっている。
しかし、フィルタリングされていないインターネットデータで訓練すると、これらのモデルは人間の好みに合わない、安全でない、不正確で、スタイリスティックに望ましくない画像を生成することができる。
これを解決するために、最近のアプローチでは、人間の嗜好データセットを微調整T2Iモデルや、これらの選好をキャプチャする報酬関数の最適化に取り入れている。
有効ではあるが、これらの手法は、モデルが報酬関数に過度に適合するハックに対して脆弱であり、生成された画像の多様性が失われる。
本稿では、報酬ハッキングの必然性を証明し、KL発散やLoRAスケーリングのような自然な正規化手法と拡散モデルの制限について研究する。
また,Annealed Importance Guidance(AIG)についても紹介する。これはAnnealed Importance Samplingにインスパイアされた推論時正規化であり,Pareto-Optimal reward-diversityのトレードオフを達成しつつベースモデルの多様性を維持している。
安定拡散モデルに対するAIGの利点を実証し、報酬最適化と画像の多様性の最適なバランスを図った。
さらに,ユーザスタディでは,AIGが様々なモデルアーキテクチャや報酬関数にまたがる生成画像の多様性と品質を改善することを確認している。
関連論文リスト
- Advancing Diffusion Models: Alias-Free Resampling and Enhanced Rotational Equivariance [0.0]
拡散モデルは、モデルによって引き起こされたアーティファクトと、画像の忠実性に制限された安定性によって、依然として挑戦されている。
拡散モデルのUNetアーキテクチャにエイリアスフリー再サンプリング層を統合することを提案する。
CIFAR-10, MNIST, MNIST-Mなどのベンチマークデータを用いた実験の結果, 画像品質が一貫した向上を示した。
論文 参考訳(メタデータ) (2024-11-14T04:23:28Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - RL for Consistency Models: Faster Reward Guided Text-to-Image Generation [15.238373471473645]
強化学習(RL)を用いた微調整一貫性モデルのためのフレームワークを提案する。
RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。
RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。
論文 参考訳(メタデータ) (2024-03-25T15:40:22Z) - Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized
Control [54.132297393662654]
拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。
拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質など他の特性にもっと関心を持っている。
本稿では,本フレームワークが真に報酬の高い多種多様なサンプルを効率よく生成できることを示す理論的,実証的な証拠を示す。
論文 参考訳(メタデータ) (2024-02-23T08:54:42Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。
強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。
提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-20T08:10:43Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - A Bayesian Non-parametric Approach to Generative Models: Integrating
Variational Autoencoder and Generative Adversarial Networks using Wasserstein
and Maximum Mean Discrepancy [2.966338139852619]
GAN(Generative Adversarial Network)とVAE(VAE)は、最も顕著で広く研究されている生成モデルである。
ベイズ的非パラメトリック(BNP)アプローチを用いて、GANとVAEを融合する。
本稿では,GANの識別能力とVAEの再構成能力とを融合させることにより,多種多様な生成タスクにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-27T08:58:31Z) - Incorporating Reinforced Adversarial Learning in Autoregressive Image
Generation [39.55651747758391]
本稿では,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。
RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。
提案手法は,64$times$64画像解像度でCelebaの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-07-20T08:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。