Fugu-MT 論文翻訳(概要): Dual Caption Preference Optimization for Diffusion Models

論文の概要: Dual Caption Preference Optimization for Diffusion Models

arxiv url: http://arxiv.org/abs/2502.06023v1
Date: Sun, 09 Feb 2025 20:34:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:50.538178
Title: Dual Caption Preference Optimization for Diffusion Models
Title（参考訳）: 拡散モデルのためのデュアルキャプション選好最適化
Authors: Amir Saeidi, Yiran Luo, Agneet Chatterjee, Shamanthak Hegde, Bimsara Pathiraja, Yezhou Yang, Chitta Baral,
Abstract要約: 本稿では,2つの異なるキャプションを用いて無関係なプロンプトを緩和する手法であるDual Caption Preference Optimization (DCPO)を提案する。実験の結果,DCPOは画像品質とプロンプトとの関係を著しく改善し,SFT_Chosen,Diffusion-DPO,MaPOを複数の指標で比較した。
参考スコア（独自算出の注目度）: 51.223275938663235
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in human preference optimization, originally developed for Large Language Models (LLMs), have shown significant potential in improving text-to-image diffusion models. These methods aim to learn the distribution of preferred samples while distinguishing them from less preferred ones. However, existing preference datasets often exhibit overlap between these distributions, leading to a conflict distribution. Additionally, we identified that input prompts contain irrelevant information for less preferred images, limiting the denoising network's ability to accurately predict noise in preference optimization methods, known as the irrelevant prompt issue. To address these challenges, we propose Dual Caption Preference Optimization (DCPO), a novel approach that utilizes two distinct captions to mitigate irrelevant prompts. To tackle conflict distribution, we introduce the Pick-Double Caption dataset, a modified version of Pick-a-Pic v2 with separate captions for preferred and less preferred images. We further propose three different strategies for generating distinct captions: captioning, perturbation, and hybrid methods. Our experiments show that DCPO significantly improves image quality and relevance to prompts, outperforming Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO, and MaPO across multiple metrics, including Pickscore, HPSv2.1, GenEval, CLIPscore, and ImageReward, fine-tuned on SD 2.1 as the backbone.
Abstract（参考訳）: 近年,Large Language Models (LLMs) 向けに開発された人間の嗜好最適化の進歩は,テキスト・画像拡散モデルの改善に大きな可能性を示している。これらの方法は、あまり好ましくないサンプルと区別しながら、好ましくないサンプルの分布を学習することを目的としている。しかし、既存の嗜好データセットはしばしばこれらの分布の間に重複を示し、矛盾する分布をもたらす。さらに、入力プロンプトには、あまり好ましくない画像に対する無関係情報が含まれており、非関連プロンプト問題として知られる優先最適化手法において、ノイズを正確に予測するネットワークの能力を制限していることを確認した。これらの課題に対処するために,2つの異なるキャプションを用いて無関係なプロンプトを緩和する新しいアプローチであるDual Caption Preference Optimization (DCPO)を提案する。コンフリクト分布に対処するために、Pick-a-Pic v2の修正版であるPick-Double Captionデータセットを導入する。さらに, キャプション, 摂動, ハイブリッド法という, 異なるキャプションを生成するための3つの戦略を提案する。実験の結果,DCPOはSD2.1,SFT_Chosen,Diffusion-DPO,MaPOを,Pickscore,HPSv2.1,GenEval,CLIPscore,ImageRewardなど複数の指標で比較し,SD2.1,SFT_Chosen,Diffusion-DPO,MaPOよりも優れた画像品質とプロンプトとの関連性を示した。

論文の概要: Dual Caption Preference Optimization for Diffusion Models

関連論文リスト