論文の概要: Dual Caption Preference Optimization for Diffusion Models
- arxiv url: http://arxiv.org/abs/2502.06023v2
- Date: Sat, 18 Oct 2025 18:05:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.178839
- Title: Dual Caption Preference Optimization for Diffusion Models
- Title(参考訳): 拡散モデルのためのデュアルキャプション選好最適化
- Authors: Amir Saeidi, Yiran Luo, Agneet Chatterjee, Shamanthak Hegde, Bimsara Pathiraja, Yezhou Yang, Chitta Baral,
- Abstract要約: テキストから画像への拡散モデルを改善するために、Dual Caption Preference Optimization (DCPO)を導入する。
DCPOは2つの異なるキャプションをそれぞれの好みペアに割り当て、学習信号を強化する。
実験の結果,DCPOは画像品質とプロンプトとの関連性を著しく改善することがわかった。
- 参考スコア(独自算出の注目度): 53.218293277964165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in human preference optimization, originally developed for Large Language Models (LLMs), have shown significant potential in improving text-to-image diffusion models. These methods aim to learn the distribution of preferred samples while distinguishing them from less preferred ones. However, within the existing preference datasets, the original caption often does not clearly favor the preferred image over the alternative, which weakens the supervision signal available during training. To address this issue, we introduce Dual Caption Preference Optimization (DCPO), a data augmentation and optimization framework that reinforces the learning signal by assigning two distinct captions to each preference pair. This encourages the model to better differentiate between preferred and less-preferred outcomes during training. We also construct Pick-Double Caption, a modified version of Pick-a-Pic v2 with separate captions for each image, and propose three different strategies for generating distinct captions: captioning, perturbation, and hybrid methods. Our experiments show that DCPO significantly improves image quality and relevance to prompts, outperforming Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO, and MaPO across multiple metrics, including Pickscore, HPSv2.1, GenEval, CLIPscore, and ImageReward, fine-tuned on SD 2.1 as the backbone.
- Abstract(参考訳): 近年,Large Language Models (LLMs) 向けに開発された人間の嗜好最適化の進歩は,テキスト・画像拡散モデルの改善に大きな可能性を示している。
これらの方法は、あまり好ましくないサンプルと区別しながら、好ましくないサンプルの分布を学習することを目的としている。
しかし、既存の嗜好データセットでは、オリジナルのキャプションは、トレーニング中に利用可能な監視シグナルを弱める、代替案よりも好まれるイメージを好まないことが多い。
この問題に対処するために、データ拡張および最適化フレームワークであるDual Caption Preference Optimization (DCPO)を導入し、それぞれに2つの異なるキャプションを割り当てることで学習信号を強化する。
これにより、トレーニング中に好ましくない結果と好ましくない結果とをよりよく区別することが可能になる。
また,Pick-a-Pic v2の修正版であるPick-Double Captionを構築し,キャプション,摂動,ハイブリッドの3つの異なるキャプションを生成する方法を提案する。
実験の結果,DCPOはSD2.1,SFT_Chosen,Diffusion-DPO,MaPOを,Pickscore,HPSv2.1,GenEval,CLIPscore,ImageRewardなど複数の指標で比較し,SD2.1,SFT_Chosen,Diffusion-DPO,MaPOよりも優れた画像品質とプロンプトとの関連性を示した。
関連論文リスト
- Towards Better Optimization For Listwise Preference in Diffusion Models [19.40269067848114]
本稿では、リストワイズデータを持つ拡散モデルにおいて、リストワイズ選好最適化のためのフレームワークであるDiffusion-LPOを提案する。
キャプションが与えられた場合、ユーザからのフィードバックをランク付けされた画像のリストに集約し、Planet-Luceモデルの下でDPOの目的をリストワイドに拡張する。
テキスト・ツー・イメージ生成や画像編集,パーソナライズされた嗜好アライメントなど,様々なタスクにおける拡散-LPOの有効性を実証的に示す。
論文 参考訳(メタデータ) (2025-10-02T00:26:37Z) - Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization [68.64764778089229]
MISP-DPOはマルチモーダルDPOに複数の意味的に多様な負の画像を組み込む最初のフレームワークである。
提案手法は,CLIP空間にプロンプトと候補画像を埋め込んで,意味的偏差を解釈可能な因子に発見するためにスパースオートエンコーダを適用する。
5つのベンチマーク実験により、MISP-DPOは従来手法よりも常にマルチモーダルアライメントを改善することが示された。
論文 参考訳(メタデータ) (2025-09-30T03:24:09Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z) - Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization [68.69203905664524]
拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。
我々は,高いコストと低い解釈可能性の課題を克服することを目的とした,新しい評価基準であるスタイルアライメントを開発した。
その結果,拡散-RPO は安定拡散バージョン1.5 と XL-1.0 の調整において超微調整や拡散-DPO などの確立された手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-10T15:42:03Z) - Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization [20.698818784349015]
本稿では,経済的に美学を改善するために,ステップバイステップ優先最適化(SPO)を提案する。
SPOは伝播戦略を捨て、きめ細かい画像の詳細を評価できる。
SPOは、細かな視覚的詳細のステップバイステップアライメントのため、DPO法よりもはるかに高速に収束する。
論文 参考訳(メタデータ) (2024-06-06T17:57:09Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。