論文の概要: Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization
- arxiv url: http://arxiv.org/abs/2406.06382v1
- Date: Mon, 10 Jun 2024 15:42:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 13:18:57.741034
- Title: Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization
- Title(参考訳): 拡散-RPO:相対的選好最適化による拡散モデルの調整
- Authors: Yi Gu, Zhendong Wang, Yueqin Yin, Yujia Xie, Mingyuan Zhou,
- Abstract要約: 拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。
我々は,高いコストと低い解釈可能性の課題を克服することを目的とした,新しい評価基準であるスタイルアライメントを開発した。
その結果,拡散-RPO は安定拡散バージョン1.5 と XL-1.0 の調整において超微調整や拡散-DPO などの確立された手法よりも優れていた。
- 参考スコア(独自算出の注目度): 68.69203905664524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models with human preferences has emerged as a critical focus in language modeling research. Yet, integrating preference learning into Text-to-Image (T2I) generative models is still relatively uncharted territory. The Diffusion-DPO technique made initial strides by employing pairwise preference learning in diffusion models tailored for specific text prompts. We introduce Diffusion-RPO, a new method designed to align diffusion-based T2I models with human preferences more effectively. This approach leverages both prompt-image pairs with identical prompts and those with semantically related content across various modalities. Furthermore, we have developed a new evaluation metric, style alignment, aimed at overcoming the challenges of high costs, low reproducibility, and limited interpretability prevalent in current evaluations of human preference alignment. Our findings demonstrate that Diffusion-RPO outperforms established methods such as Supervised Fine-Tuning and Diffusion-DPO in tuning Stable Diffusion versions 1.5 and XL-1.0, achieving superior results in both automated evaluations of human preferences and style alignment. Our code is available at https://github.com/yigu1008/Diffusion-RPO
- Abstract(参考訳): 言語モデリング研究において,人間の好みによる大規模言語モデルのアラインメントが重要視されている。
しかし、好みの学習をテキスト・ツー・イメージ(T2I)生成モデルに組み込むことは、いまだに比較的未知の領域である。
Diffusion-DPO技術は、特定のテキストプロンプトに適した拡散モデルにおいて、ペアワイズ優先学習を用いることで、最初の一歩を踏み出した。
拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。
このアプローチは、同一のプロンプトを持つプロンプトイメージ対と、様々なモダリティにまたがる意味的に関連のあるコンテンツの両方を活用する。
さらに我々は,人選好アライメントの現在の評価において,高コスト,低再現性,限定的な解釈可能性といった課題を克服することを目的とした,新しい評価基準,スタイルアライメントを開発した。
以上の結果から,Diffusion-RPO は安定拡散バージョン1.5 と XL-1.0 のチューニングにおいて,人間の好みの自動評価とスタイルアライメントの両面で優れた結果が得られ,Supervised Fine-Tuning や Diffusion-DPO などの確立された手法よりも優れていたことが示唆された。
私たちのコードはhttps://github.com/yigu1008/Diffusion-RPOで利用可能です。
関連論文リスト
- Aligning Diffusion Models with Noise-Conditioned Perception [42.042822966928576]
拡散モデルは通常、ピクセルまたはVAE空間で最適化されるが、人間の知覚とうまく一致しない。
本稿では,これらの問題に対処するために,拡散モデルのU-Net埋め込み空間における知覚的目的を用いることを提案する。
論文 参考訳(メタデータ) (2024-06-25T15:21:50Z) - Aligning Diffusion Models by Optimizing Human Utility [1.6166249658374658]
Diffusion-KTOは、テキストと画像の拡散モデルを人間の好みに合わせるための新しいアプローチである。
私たちの目的は、単純なイメージ単位のバイナリフィードバック信号、例えば、十分に利用可能ないいね!や嫌悪(dislikes)が必要です。
論文 参考訳(メタデータ) (2024-04-06T01:23:23Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z) - Are Diffusion Models Vision-And-Language Reasoners? [30.579483430697803]
我々は、DiffusionITMと呼ばれる新しい手法を用いて、任意の画像テキストマッチング(ITM)タスクに対する拡散ベースモデルを変換する。
GDBench(Generative-Discriminative Evaluation Benchmark)ベンチマークを7つの複雑な視覚・言語タスク、バイアス評価、詳細な分析で導入する。
安定拡散+拡散ITMは多くのタスクで競争力があり、CLIPよりもCLEVRやWinogroundのようなコンポジションタスクで優れています。
論文 参考訳(メタデータ) (2023-05-25T18:02:22Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。