論文の概要: Diffusion Model Alignment Using Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2311.12908v1
- Date: Tue, 21 Nov 2023 15:24:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 17:21:09.418473
- Title: Diffusion Model Alignment Using Direct Preference Optimization
- Title(参考訳): 直接選好最適化を用いた拡散モデルアライメント
- Authors: Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou,
Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, Nikhil Naik
- Abstract要約: 拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
- 参考スコア(独自算出の注目度): 103.2238655827797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are fine-tuned using human comparison data with
Reinforcement Learning from Human Feedback (RLHF) methods to make them better
aligned with users' preferences. In contrast to LLMs, human preference learning
has not been widely explored in text-to-image diffusion models; the best
existing approach is to fine-tune a pretrained model using carefully curated
high quality images and captions to improve visual appeal and text alignment.
We propose Diffusion-DPO, a method to align diffusion models to human
preferences by directly optimizing on human comparison data. Diffusion-DPO is
adapted from the recently developed Direct Preference Optimization (DPO), a
simpler alternative to RLHF which directly optimizes a policy that best
satisfies human preferences under a classification objective. We re-formulate
DPO to account for a diffusion model notion of likelihood, utilizing the
evidence lower bound to derive a differentiable objective. Using the Pick-a-Pic
dataset of 851K crowdsourced pairwise preferences, we fine-tune the base model
of the state-of-the-art Stable Diffusion XL (SDXL)-1.0 model with
Diffusion-DPO. Our fine-tuned base model significantly outperforms both base
SDXL-1.0 and the larger SDXL-1.0 model consisting of an additional refinement
model in human evaluation, improving visual appeal and prompt alignment. We
also develop a variant that uses AI feedback and has comparable performance to
training on human preferences, opening the door for scaling of diffusion model
alignment methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の好みに合うように強化学習(Reinforcement Learning from Human Feedback, RLHF)法と人間の比較データを用いて微調整される。
LLMとは対照的に、ヒトの嗜好学習はテキストから画像への拡散モデルでは広く研究されていないが、既存の最良のアプローチは、注意深くキュレートされた高品質な画像とキャプションを使用して事前訓練されたモデルを微調整し、視覚的魅力とテキストアライメントを改善することである。
本研究では,人差データを直接最適化することで,拡散モデルを人間の好みに合わせる手法であるDiffusion-DPOを提案する。
拡散-DPOは、最近開発された直接選好最適化(DPO)から適応され、RLHFの代替として、分類目的の下で人間の選好を最も満足するポリシーを直接最適化する。
我々は、DPOを再定式化し、可能性の拡散モデルの概念を考慮し、低境界の証拠を利用して微分可能な目的を導出する。
クラウドソースされた851KのPick-a-Picデータセットを用いて、Diffusion-DPOを用いた最先端の安定拡散XL(SDXL)-1.0モデルのベースモデルを微調整する。
我々の微調整ベースモデルは,人間の評価に付加的な改良モデル,視覚的魅力の向上,即時アライメントを含む,SDXL-1.0ベースモデルと大きなSDXL-1.0モデルの両方に優れていた。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ変種を開発し、拡散モデルアライメント手法のスケーリングの扉を開く。
関連論文リスト
- Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。
強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。
提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-20T08:10:43Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Using Human Feedback to Fine-tune Diffusion Models without Any Reward
Model [39.69263901496271]
細管拡散モデルに対するD3PO(Denoising Diffusion Policy Optimization)法について述べる。
D3POは報酬モデルのトレーニングを省略するが、人間のフィードバックデータを用いてトレーニングされた最適報酬モデルとして効果的に機能する。
実験では,目的の相対尺度を人間の嗜好のプロキシとして使用し,地道報酬を用いた手法に匹敵する結果を与える。
論文 参考訳(メタデータ) (2023-11-22T08:42:46Z) - Adversarial Preference Optimization [30.937079544053482]
より効率的な人選好最適化を目指すために, 対人選好最適化(APO)フレームワークを提案する。
APOは補助性と無害性の観点から,ベースライン手法のアライメント性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-11-14T10:10:31Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。