Fugu-MT 論文翻訳(概要): Diffusion Model Alignment Using Direct Preference Optimization

論文の概要: Diffusion Model Alignment Using Direct Preference Optimization

arxiv url: http://arxiv.org/abs/2311.12908v1
Date: Tue, 21 Nov 2023 15:24:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 17:21:09.418473
Title: Diffusion Model Alignment Using Direct Preference Optimization
Title（参考訳）: 直接選好最適化を用いた拡散モデルアライメント
Authors: Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, Nikhil Naik
Abstract要約: 拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
参考スコア（独自算出の注目度）: 103.2238655827797
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are fine-tuned using human comparison data with Reinforcement Learning from Human Feedback (RLHF) methods to make them better aligned with users' preferences. In contrast to LLMs, human preference learning has not been widely explored in text-to-image diffusion models; the best existing approach is to fine-tune a pretrained model using carefully curated high quality images and captions to improve visual appeal and text alignment. We propose Diffusion-DPO, a method to align diffusion models to human preferences by directly optimizing on human comparison data. Diffusion-DPO is adapted from the recently developed Direct Preference Optimization (DPO), a simpler alternative to RLHF which directly optimizes a policy that best satisfies human preferences under a classification objective. We re-formulate DPO to account for a diffusion model notion of likelihood, utilizing the evidence lower bound to derive a differentiable objective. Using the Pick-a-Pic dataset of 851K crowdsourced pairwise preferences, we fine-tune the base model of the state-of-the-art Stable Diffusion XL (SDXL)-1.0 model with Diffusion-DPO. Our fine-tuned base model significantly outperforms both base SDXL-1.0 and the larger SDXL-1.0 model consisting of an additional refinement model in human evaluation, improving visual appeal and prompt alignment. We also develop a variant that uses AI feedback and has comparable performance to training on human preferences, opening the door for scaling of diffusion model alignment methods.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人間の好みに合うように強化学習(Reinforcement Learning from Human Feedback, RLHF)法と人間の比較データを用いて微調整される。 LLMとは対照的に、ヒトの嗜好学習はテキストから画像への拡散モデルでは広く研究されていないが、既存の最良のアプローチは、注意深くキュレートされた高品質な画像とキャプションを使用して事前訓練されたモデルを微調整し、視覚的魅力とテキストアライメントを改善することである。本研究では,人差データを直接最適化することで,拡散モデルを人間の好みに合わせる手法であるDiffusion-DPOを提案する。拡散-DPOは、最近開発された直接選好最適化(DPO)から適応され、RLHFの代替として、分類目的の下で人間の選好を最も満足するポリシーを直接最適化する。我々は、DPOを再定式化し、可能性の拡散モデルの概念を考慮し、低境界の証拠を利用して微分可能な目的を導出する。クラウドソースされた851KのPick-a-Picデータセットを用いて、Diffusion-DPOを用いた最先端の安定拡散XL(SDXL)-1.0モデルのベースモデルを微調整する。我々の微調整ベースモデルは,人間の評価に付加的な改良モデル,視覚的魅力の向上,即時アライメントを含む,SDXL-1.0ベースモデルと大きなSDXL-1.0モデルの両方に優れていた。また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ変種を開発し、拡散モデルアライメント手法のスケーリングの扉を開く。

関連論文リスト

InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文参考訳（メタデータ） (2025-03-24T08:58:49Z)
Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-02-01T16:08:43Z)
Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。 PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文参考訳（メタデータ） (2025-01-11T22:38:41Z)
Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文参考訳（メタデータ） (2024-10-23T16:42:56Z)
Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。 PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。 PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文参考訳（メタデータ） (2024-10-04T07:05:16Z)
Aligning Diffusion Models with Noise-Conditioned Perception [42.042822966928576]
拡散モデルは通常、ピクセルまたはVAE空間で最適化されるが、人間の知覚とうまく一致しない。本稿では,これらの問題に対処するために,拡散モデルのU-Net埋め込み空間における知覚的目的を用いることを提案する。
論文参考訳（メタデータ） (2024-06-25T15:21:50Z)
Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization [68.69203905664524]
拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。我々は,高いコストと低い解釈可能性の課題を克服することを目的とした,新しい評価基準であるスタイルアライメントを開発した。その結果,拡散-RPO は安定拡散バージョン1.5 と XL-1.0 の調整において超微調整や拡散-DPO などの確立された手法よりも優れていた。
論文参考訳（メタデータ） (2024-06-10T15:42:03Z)
Direct Preference Optimization With Unobserved Preference Heterogeneity [16.91835461818937]
本稿では,生成モデルと人間の嗜好を一致させる新しい手法を提案する。そこで我々はDPOに対する期待最大化適応を提案し、アノテータの潜在選好型に基づくモデルの混合を生成する。我々のアルゴリズムはDPOの単純さを生かし、多様な好みを調節する。
論文参考訳（メタデータ） (2024-05-23T21:25:20Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model [38.25406127216304]
細管拡散モデルに対するD3PO(Denoising Diffusion Policy Optimization)法について述べる。 D3POは報酬モデルのトレーニングを省略するが、人間のフィードバックデータを用いてトレーニングされた最適報酬モデルとして効果的に機能する。実験では,目的の相対尺度を人間の嗜好のプロキシとして使用し,地道報酬を用いた手法に匹敵する結果を与える。
論文参考訳（メタデータ） (2023-11-22T08:42:46Z)
Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文参考訳（メタデータ） (2023-05-22T17:57:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。