論文の概要: Personalized Preference Fine-tuning of Diffusion Models
- arxiv url: http://arxiv.org/abs/2501.06655v1
- Date: Sat, 11 Jan 2025 22:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:27:25.448656
- Title: Personalized Preference Fine-tuning of Diffusion Models
- Title(参考訳): 拡散モデルのパーソナライズされた選好微調整
- Authors: Meihua Dang, Anikait Singh, Linqi Zhou, Stefano Ermon, Jiaming Song,
- Abstract要約: 拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
- 参考スコア(独自算出の注目度): 75.22218338096316
- License:
- Abstract: RLHF techniques like DPO can significantly improve the generation quality of text-to-image diffusion models. However, these methods optimize for a single reward that aligns model generation with population-level preferences, neglecting the nuances of individual users' beliefs or values. This lack of personalization limits the efficacy of these models. To bridge this gap, we introduce PPD, a multi-reward optimization objective that aligns diffusion models with personalized preferences. With PPD, a diffusion model learns the individual preferences of a population of users in a few-shot way, enabling generalization to unseen users. Specifically, our approach (1) leverages a vision-language model (VLM) to extract personal preference embeddings from a small set of pairwise preference examples, and then (2) incorporates the embeddings into diffusion models through cross attention. Conditioning on user embeddings, the text-to-image models are fine-tuned with the DPO objective, simultaneously optimizing for alignment with the preferences of multiple users. Empirical results demonstrate that our method effectively optimizes for multiple reward functions and can interpolate between them during inference. In real-world user scenarios, with as few as four preference examples from a new user, our approach achieves an average win rate of 76\% over Stable Cascade, generating images that more accurately reflect specific user preferences.
- Abstract(参考訳): DPOのようなRLHF技術は、テキストから画像への拡散モデルの生成品質を大幅に向上させることができる。
しかし、これらの手法は、モデル生成と人口レベルの嗜好を一致させる単一の報酬を最適化し、個々のユーザの信念や価値観のニュアンスを無視している。
このパーソナライゼーションの欠如は、これらのモデルの有効性を制限する。
このギャップを埋めるために、拡散モデルとパーソナライズされた好みを整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは,拡散モデルによってユーザの個人の嗜好を数秒で学習し,ユーザを認識できないものに一般化する。
具体的には、(1)視覚言語モデル(VLM)を利用して、ペアの好みの小さな例から個人の好みの埋め込みを抽出し、(2)クロスアテンションを通して拡散モデルに埋め込みを組み込む。
ユーザ埋め込みを条件として、テキスト・ツー・イメージ・モデルはDPOの目的に合わせて微調整され、同時に複数のユーザの好みに合わせて調整される。
実験の結果,提案手法は複数の報酬関数を効果的に最適化し,推論中に相互に補間可能であることが示された。
現実のユーザシナリオでは、新しいユーザの好みの例が4つにも満たないため、私たちのアプローチは、より正確に特定のユーザの好みを反映した画像を生成するため、Stable Cascadeに対する平均勝率76\%を達成する。
関連論文リスト
- MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。
これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。
マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T00:59:19Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences [6.398937923320069]
我々は、既存の事前学習戦略を補完する人間の嗜好をモデル化するフレームワークであるPALを提案する。
PALは,強いベースラインと比較して,競争報酬モデルの精度が向上することを示す。
論文 参考訳(メタデータ) (2024-06-12T17:54:54Z) - Margin-aware Preference Optimization for Aligning Diffusion Models without Reference [19.397326645617422]
本稿では、SDXL(Stable Diffusion XL)のような最近のテキスト・画像拡散モデルのアライメントに焦点を当てる。
参照モデルに依存しない拡散モデルのための新しいメモリフレンドリーな選好アライメント手法を提案し,マージン・アウェア・選好最適化(MaPO)を提案する。
MaPOは、好ましくも好ましくない画像集合と好ましくも好まれる集合との近縁マージンを最大化し、同時に一般的なスタイリスティックな特徴と嗜好を学習する。
論文 参考訳(メタデータ) (2024-06-10T16:14:45Z) - Direct Preference Optimization With Unobserved Preference Heterogeneity [16.91835461818937]
本稿では,生成モデルと人間の嗜好を一致させる新しい手法を提案する。
そこで我々はDPOに対する期待最大化適応を提案し、アノテータの潜在選好型に基づくモデルの混合を生成する。
我々のアルゴリズムはDPOの単純さを生かし、多様な好みを調節する。
論文 参考訳(メタデータ) (2024-05-23T21:25:20Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。