論文の概要: DreamBoothDPO: Improving Personalized Generation using Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2505.20975v1
- Date: Tue, 27 May 2025 10:07:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.569043
- Title: DreamBoothDPO: Improving Personalized Generation using Direct Preference Optimization
- Title(参考訳): DreamBoothDPO: 直接選好最適化によるパーソナライズ生成の改善
- Authors: Shamil Ayupov, Maksim Nakhodnov, Anastasia Yaschenko, Andrey Kuznetsov, Aibek Alanov,
- Abstract要約: 概念の忠実さとコンテキストアライメントのバランスは 難しい問題です
本稿では,この問題に対処するために,T2Iモデルの多種多様な出力を利用するRLベースのアプローチを提案する。
提案手法は,DPOライクなトレーニングのための合成ペアデータセットを生成することにより,人手によるスコアの必要性を解消する。
- 参考スコア(独自算出の注目度): 2.5282283486446757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized diffusion models have shown remarkable success in Text-to-Image (T2I) generation by enabling the injection of user-defined concepts into diverse contexts. However, balancing concept fidelity with contextual alignment remains a challenging open problem. In this work, we propose an RL-based approach that leverages the diverse outputs of T2I models to address this issue. Our method eliminates the need for human-annotated scores by generating a synthetic paired dataset for DPO-like training using external quality metrics. These better-worse pairs are specifically constructed to improve both concept fidelity and prompt adherence. Moreover, our approach supports flexible adjustment of the trade-off between image fidelity and textual alignment. Through multi-step training, our approach outperforms a naive baseline in convergence speed and output quality. We conduct extensive qualitative and quantitative analysis, demonstrating the effectiveness of our method across various architectures and fine-tuning techniques. The source code can be found at https://github.com/ControlGenAI/DreamBoothDPO.
- Abstract(参考訳): パーソナライズされた拡散モデルは、ユーザ定義概念を多様なコンテキストに注入することで、テキスト・ツー・イメージ(T2I)生成において顕著な成功を収めている。
しかし、コンテクストアライメントと概念の忠実さのバランスをとることは、依然として挑戦的なオープンな問題である。
本稿では,この問題に対処するために,T2Iモデルの多種多様な出力を利用するRLベースのアプローチを提案する。
本手法は,外部品質指標を用いたDPOライクなトレーニングのための合成ペアデータセットを生成することにより,人手によるスコアの必要性を解消する。
これらのよりましなペアは、概念の忠実さと即効性の両方を改善するために特別に構築されている。
さらに,本手法は画像の忠実度とテキストアライメントとのトレードオフを柔軟に調整することを支援する。
多段階の学習を通じて,本手法は収束速度と出力品質において,素質のベースラインよりも優れる。
我々は、様々なアーキテクチャや微調整技術における手法の有効性を実証し、定性的かつ定量的な分析を行う。
ソースコードはhttps://github.com/ControlGenAI/DreamBoothDPOで見ることができる。
関連論文リスト
- Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - MMaDA: Multimodal Large Diffusion Language Models [47.043301822171195]
マルチモーダル拡散基礎モデルの新たなクラスであるMMaDAを紹介する。
テキスト推論、マルチモーダル理解、テキスト・ツー・イメージ生成など、さまざまな領域で優れたパフォーマンスを実現するように設計されている。
論文 参考訳(メタデータ) (2025-05-21T17:59:05Z) - Beyond Fine-Tuning: A Systematic Study of Sampling Techniques in Personalized Image Generation [2.9631016562930546]
学習概念の忠実さと、様々な文脈で生成する能力のバランスをとることは、重大な課題である。
既存の手法はしばしば、様々な微調整パラメータ化とサンプリング戦略の改善を通じてこの問題に対処する。
本稿では,テキストアライメント,計算制約,忠実度を判定し,戦略選択を導くためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-09T13:22:32Z) - Weak Supervision Dynamic KL-Weighted Diffusion Models Guided by Large Language Models [0.0]
本稿では,大言語モデルと拡散モデルを組み合わせることで,テキスト・画像生成を改善する新しい手法を提案する。
提案手法は, 学習済みLLMから意味的理解を取り入れ, 生成過程の導出を行う。
本手法は,テキスト記述による画像の視覚的品質とアライメントを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-02T15:43:13Z) - Customized Generation Reimagined: Fidelity and Editability Harmonized [30.92739649737791]
カスタマイズされた生成は、新しい概念を事前訓練されたテキスト・ツー・イメージモデルに組み込むことを目的としている。
カスタマイズされた生成は、概念の忠実さと編集性の間の本質的にのトレードオフに悩まされる。
論文 参考訳(メタデータ) (2024-12-06T07:54:34Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。