論文の概要: Towards Better Optimization For Listwise Preference in Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.01540v1
- Date: Thu, 02 Oct 2025 00:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.919108
- Title: Towards Better Optimization For Listwise Preference in Diffusion Models
- Title(参考訳): 拡散モデルにおけるリスワイズ選好の最適化に向けて
- Authors: Jiamu Bai, Xin Yu, Meilong Xu, Weitao Lu, Xin Pan, Kiwan Maeng, Daniel Kifer, Jian Wang, Yu Wang,
- Abstract要約: 本稿では、リストワイズデータを持つ拡散モデルにおいて、リストワイズ選好最適化のためのフレームワークであるDiffusion-LPOを提案する。
キャプションが与えられた場合、ユーザからのフィードバックをランク付けされた画像のリストに集約し、Planet-Luceモデルの下でDPOの目的をリストワイドに拡張する。
テキスト・ツー・イメージ生成や画像編集,パーソナライズされた嗜好アライメントなど,様々なタスクにおける拡散-LPOの有効性を実証的に示す。
- 参考スコア(独自算出の注目度): 19.40269067848114
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has proven effectiveness for aligning text-to-image (T2I) diffusion models with human preferences. Although Direct Preference Optimization (DPO) is widely adopted for its computational efficiency and avoidance of explicit reward modeling, its applications to diffusion models have primarily relied on pairwise preferences. The precise optimization of listwise preferences remains largely unaddressed. In practice, human feedback on image preferences often contains implicit ranked information, which conveys more precise human preferences than pairwise comparisons. In this work, we propose Diffusion-LPO, a simple and effective framework for Listwise Preference Optimization in diffusion models with listwise data. Given a caption, we aggregate user feedback into a ranked list of images and derive a listwise extension of the DPO objective under the Plackett-Luce model. Diffusion-LPO enforces consistency across the entire ranking by encouraging each sample to be preferred over all of its lower-ranked alternatives. We empirically demonstrate the effectiveness of Diffusion-LPO across various tasks, including text-to-image generation, image editing, and personalized preference alignment. Diffusion-LPO consistently outperforms pairwise DPO baselines on visual quality and preference alignment.
- Abstract(参考訳): 人間からのフィードバックからの強化学習(RLHF)は、テキスト・ツー・イメージ(T2I)拡散モデルと人間の好みを一致させる効果が証明されている。
直接選好最適化(DPO)はその計算効率と明示的な報奨モデリングの回避のために広く採用されているが、拡散モデルへの応用は主にペアの選好に依存している。
リストワイズ選好の正確な最適化は、いまだほとんど適用されていない。
実際には、画像の好みに対する人間のフィードバックは暗黙のランク情報を含むことが多く、ペア比較よりも正確な人間の好みを伝える。
本研究では、リストワイズデータを持つ拡散モデルにおいて、リストワイズ選好最適化のためのシンプルで効果的なフレームワークであるDiffusion-LPOを提案する。
キャプションが与えられた場合、ユーザからのフィードバックをランク付けされた画像のリストに集約し、Planet-Luceモデルの下でDPOの目的をリストワイドに拡張する。
Diffusion-LPOは、各サンプルを低ランクの代替品よりも優先するように推奨することで、ランキング全体の一貫性を強制する。
テキスト・ツー・イメージ生成や画像編集,パーソナライズされた嗜好アライメントなど,様々なタスクにおける拡散-LPOの有効性を実証的に示す。
Diffusion-LPOは、視覚的品質と嗜好アライメントに基づいてペアワイズDPOベースラインを一貫して上回る。
関連論文リスト
- Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences [13.588231827053923]
直接選好最適化(DPO)は、テキスト・ツー・イメージ(T2I)生成モデルと、ペアの選好データを用いた人間の選好を一致させる。
本稿では, DPO の目的を改善するために, 好み分布をモデル化する新しい手法である SmPO-Diffusion を提案する。
提案手法は,既存手法における過度な最適化と客観的なミスアライメントの問題を効果的に軽減する。
論文 参考訳(メタデータ) (2025-06-03T09:47:22Z) - Self-NPO: Negative Preference Optimization of Diffusion Models by Simply Learning from Itself without Explicit Preference Annotations [60.143658714894336]
拡散モデルは、画像、ビデオ、および3Dコンテンツ生成を含む様々な視覚生成タスクにおいて顕著な成功を収めている。
優先度最適化(PO)は、これらのモデルを人間の嗜好に合わせることを目的とした、顕著で成長している研究分野である。
モデル自体からのみ学習する負の選好最適化アプローチであるSelf-NPOを導入する。
論文 参考訳(メタデータ) (2025-05-17T01:03:46Z) - Dual Caption Preference Optimization for Diffusion Models [51.223275938663235]
本稿では,2つの異なるキャプションを用いて無関係なプロンプトを緩和する手法であるDual Caption Preference Optimization (DCPO)を提案する。
実験の結果,DCPOは画像品質とプロンプトとの関係を著しく改善し,SFT_Chosen,Diffusion-DPO,MaPOを複数の指標で比較した。
論文 参考訳(メタデータ) (2025-02-09T20:34:43Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization [68.69203905664524]
拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。
我々は,高いコストと低い解釈可能性の課題を克服することを目的とした,新しい評価基準であるスタイルアライメントを開発した。
その結果,拡散-RPO は安定拡散バージョン1.5 と XL-1.0 の調整において超微調整や拡散-DPO などの確立された手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-10T15:42:03Z) - Aligning Diffusion Models by Optimizing Human Utility [1.6166249658374658]
Diffusion-KTOは、テキストと画像の拡散モデルを人間の好みに合わせるための新しいアプローチである。
私たちの目的は、単純なイメージ単位のバイナリフィードバック信号、例えば、十分に利用可能ないいね!や嫌悪(dislikes)が必要です。
論文 参考訳(メタデータ) (2024-04-06T01:23:23Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。