論文の概要: Fine-Tuning Diffusion Generative Models via Rich Preference Optimization
- arxiv url: http://arxiv.org/abs/2503.11720v3
- Date: Wed, 16 Apr 2025 15:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 20:12:20.997583
- Title: Fine-Tuning Diffusion Generative Models via Rich Preference Optimization
- Title(参考訳): リッチな選好最適化による微調整拡散生成モデル
- Authors: Hanyang Zhao, Haoxian Chen, Yucheng Guo, Genta Indra Winata, Tingting Ou, Ziyu Huang, David D. Yao, Wenpin Tang,
- Abstract要約: そこで我々はRich Preference Optimization (RPO)を導入し、微調整によるテキスト・画像拡散モデルのための好みペアのキュレーションを改善する。
RPOは、信頼性が高く動作可能な画像編集命令を抽出するために、合成された画像の詳細な批評を生成する。
微細調整型拡散モデルにおけるパイプラインの有効性を実証する。
- 参考スコア(独自算出の注目度): 13.4078883626321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Rich Preference Optimization (RPO), a novel pipeline that leverages rich feedback signals to improve the curation of preference pairs for fine-tuning text-to-image diffusion models. Traditional methods, like Diffusion-DPO, often rely solely on reward model labeling, which can be opaque, offer limited insights into the rationale behind preferences, and are prone to issues such as reward hacking or overfitting. In contrast, our approach begins with generating detailed critiques of synthesized images to extract reliable and actionable image editing instructions. By implementing these instructions, we create refined images, resulting in synthetic, informative preference pairs that serve as enhanced tuning datasets. We demonstrate the effectiveness of our pipeline and the resulting datasets in fine-tuning state-of-the-art diffusion models.
- Abstract(参考訳): 我々は、リッチなフィードバック信号を活用する新しいパイプラインであるRich Preference Optimization (RPO)を導入し、微調整されたテキスト-画像拡散モデルに対する好みペアのキュレーションを改善する。
Diffusion-DPOのような従来の手法は、報酬モデルラベリングにのみ依存することが多く、不透明であり、好みの背後にある理論的根拠に限定的な洞察を与え、報酬のハッキングや過度な適合のような問題を引き起こす。
対照的に、我々のアプローチは、信頼性と動作可能な画像編集命令を抽出するために、合成画像の詳細な批評を生成することから始まる。
これらの命令を実装することによって、改良された画像を生成し、結果として合成された情報的選好ペアが、強化されたチューニングデータセットとして機能する。
我々は,我々のパイプラインと結果のデータセットの有効性を,微調整された最先端拡散モデルで実証する。
関連論文リスト
- A Simple Combination of Diffusion Models for Better Quality Trade-Offs in Image Denoising [43.44633086975204]
本稿では,事前学習した拡散モデルを活用するための直感的な手法を提案する。
次に,提案する線形結合拡散デノイザについて紹介する。
LCDDは最先端のパフォーマンスを達成し、制御され、よく機能するトレードオフを提供する。
論文 参考訳(メタデータ) (2025-03-18T19:02:19Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。
我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。
画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T11:49:39Z) - Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization [20.698818784349015]
本稿では,経済的に美学を改善するために,ステップバイステップ優先最適化(SPO)を提案する。
SPOは伝播戦略を捨て、きめ細かい画像の詳細を評価できる。
SPOは、ステップアウェアの選好モデルによって提供されるより正確な選好ラベルを使用することにより、DPO法よりもはるかに高速に収束する。
論文 参考訳(メタデータ) (2024-06-06T17:57:09Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - NaturalInversion: Data-Free Image Synthesis Improving Real-World
Consistency [1.1470070927586016]
実データを用いずに元のデータ分布とよく一致した画像を合成する新しいモデル逆変換法であるNaturalInversionを紹介する。
我々の画像は、視覚化と追加分析による以前の作業よりも、元のデータ分布に一貫性があることが示される。
論文 参考訳(メタデータ) (2023-06-29T03:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。