論文の概要: Margin-aware Preference Optimization for Aligning Diffusion Models without Reference
- arxiv url: http://arxiv.org/abs/2406.06424v1
- Date: Mon, 10 Jun 2024 16:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 13:09:08.277680
- Title: Margin-aware Preference Optimization for Aligning Diffusion Models without Reference
- Title(参考訳): 参照なし拡散モデルアライメントのためのMargin-Aware Preference Optimization
- Authors: Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong,
- Abstract要約: 本稿では、SDXL(Stable Diffusion XL)のような最近のテキスト・画像拡散モデルのアライメントに焦点を当てる。
参照モデルに依存しない拡散モデルのための新しいメモリフレンドリーな選好アライメント手法を提案し,マージン・アウェア・選好最適化(MaPO)を提案する。
MaPOは、好ましくも好ましくない画像集合と好ましくも好まれる集合との近縁マージンを最大化し、同時に一般的なスタイリスティックな特徴と嗜好を学習する。
- 参考スコア(独自算出の注目度): 19.397326645617422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern alignment techniques based on human preferences, such as RLHF and DPO, typically employ divergence regularization relative to the reference model to ensure training stability. However, this often limits the flexibility of models during alignment, especially when there is a clear distributional discrepancy between the preference data and the reference model. In this paper, we focus on the alignment of recent text-to-image diffusion models, such as Stable Diffusion XL (SDXL), and find that this "reference mismatch" is indeed a significant problem in aligning these models due to the unstructured nature of visual modalities: e.g., a preference for a particular stylistic aspect can easily induce such a discrepancy. Motivated by this observation, we propose a novel and memory-friendly preference alignment method for diffusion models that does not depend on any reference model, coined margin-aware preference optimization (MaPO). MaPO jointly maximizes the likelihood margin between the preferred and dispreferred image sets and the likelihood of the preferred sets, simultaneously learning general stylistic features and preferences. For evaluation, we introduce two new pairwise preference datasets, which comprise self-generated image pairs from SDXL, Pick-Style and Pick-Safety, simulating diverse scenarios of reference mismatch. Our experiments validate that MaPO can significantly improve alignment on Pick-Style and Pick-Safety and general preference alignment when used with Pick-a-Pic v2, surpassing the base SDXL and other existing methods. Our code, models, and datasets are publicly available via https://mapo-t2i.github.io
- Abstract(参考訳): RLHFやDPOのような人間の好みに基づく現代的なアライメント技術は、トレーニング安定性を確保するために、基準モデルに対する分散正則化を用いるのが一般的である。
しかし、特に嗜好データと参照モデルの間に明確な分布差がある場合、これはアライメント中のモデルの柔軟性を制限します。
本稿では, 安定拡散XL (SDXL) などの最近のテキスト・画像拡散モデルのアライメントに着目し, この「参照ミスマッチ」は, 視覚的モダリティの非構造化の性質から, それらのモデルのアライメントにおいて重要な問題であることがわかった。
本研究の目的は,参照モデルに依存しない拡散モデルに対して,新しい,メモリフレンドリな選好アライメント手法を提案することである。
MaPOは、好ましくも好ましくない画像集合と好ましくも好まれる集合との近縁マージンを最大化し、同時に一般的なスタイリスティックな特徴と嗜好を学習する。
評価のために、SDXL、Pick-Style、Pick-Safetyから自己生成された画像ペアからなる2つの新しいペアワイズ選好データセットを導入し、参照ミスマッチの多様なシナリオをシミュレートする。
本実験は,Pick-a-Pic v2を用いた場合のPick-StyleおよびPick-Safetyのアライメントと一般優先アライメントを,ベースSDXLや他の既存手法よりも大幅に向上させることができることを示した。
私たちのコード、モデル、データセットはhttps://mapo-t2i.github.ioで公開されています。
関連論文リスト
- SePPO: Semi-Policy Preference Optimization for Diffusion Alignment [67.8738082040299]
本稿では、報酬モデルやペアの人間注釈データに頼ることなく、DMと好みを一致させる選好最適化手法を提案する。
テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークでSePPOを検証する。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult [0.48951183832371004]
この問題に対処するため,textbfModulated Intervention Preference Optimization (MIPO)を提案する。
MIPOは、そのデータがどのように適合しているかに基づいて、参照モデルからの介入の度合いを変調する。
我々は,Alpaca Eval 2.0 と MT-Bench における Mistral-7B と Llama3-8B を用いた MIPO と DPO の性能を比較した。
論文 参考訳(メタデータ) (2024-09-26T05:24:14Z) - Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization [68.69203905664524]
拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。
我々は,高いコストと低い解釈可能性の課題を克服することを目的とした,新しい評価基準であるスタイルアライメントを開発した。
その結果,拡散-RPO は安定拡散バージョン1.5 と XL-1.0 の調整において超微調整や拡散-DPO などの確立された手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-10T15:42:03Z) - Preference Alignment with Flow Matching [23.042382086241364]
優先フローマッチング(PFM)は、好みに基づく強化学習(PbRL)のための新しいフレームワークである
事前訓練されたモデルの任意のクラスへの好みの統合を合理化する。
提案手法の標準PbRL目標との整合性を支持する理論的知見を提供する。
論文 参考訳(メタデータ) (2024-05-30T08:16:22Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Rationalizing Text Matching: Learning Sparse Alignments via Optimal
Transport [14.86310501896212]
本研究では,この選択的合理化アプローチをテキストマッチングに拡張する。
目標は、下流の予測の正当化として、トークンや文などのテキストを共同で選択し、調整することである。
我々のアプローチでは、入力間の最小コストアライメントを見つけるために最適なトランスポート(OT)を採用している。
論文 参考訳(メタデータ) (2020-05-27T01:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。