論文の概要: Personalized Image Editing in Text-to-Image Diffusion Models via Collaborative Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2511.05616v1
- Date: Thu, 06 Nov 2025 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.500258
- Title: Personalized Image Editing in Text-to-Image Diffusion Models via Collaborative Direct Preference Optimization
- Title(参考訳): 協調的直接選好最適化によるテキスト・画像拡散モデルのパーソナライズされた画像編集
- Authors: Connor Dunlop, Matthew Zheng, Kavana Venkatesh, Pinar Yanardag,
- Abstract要約: C-DPO(Collaborative Preference Optimization)は、画像編集とユーザの好みを一致させる新しい手法である。
提案手法では,各ユーザを動的嗜好グラフのノードとして符号化し,軽量なグラフニューラルネットワークを用いて埋め込みを学習する。
本手法は,ユーザの好みに合わせた編集生成において,ベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 11.306247975771013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) diffusion models have made remarkable strides in generating and editing high-fidelity images from text. Yet, these models remain fundamentally generic, failing to adapt to the nuanced aesthetic preferences of individual users. In this work, we present the first framework for personalized image editing in diffusion models, introducing Collaborative Direct Preference Optimization (C-DPO), a novel method that aligns image edits with user-specific preferences while leveraging collaborative signals from like-minded individuals. Our approach encodes each user as a node in a dynamic preference graph and learns embeddings via a lightweight graph neural network, enabling information sharing across users with overlapping visual tastes. We enhance a diffusion model's editing capabilities by integrating these personalized embeddings into a novel DPO objective, which jointly optimizes for individual alignment and neighborhood coherence. Comprehensive experiments, including user studies and quantitative benchmarks, demonstrate that our method consistently outperforms baselines in generating edits that are aligned with user preferences.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルでは,テキストからの高忠実度画像の生成と編集において顕著な進歩を遂げている。
しかし、これらのモデルは基本的には汎用的であり、個々のユーザの美的好みに適応できない。
本研究では、拡散モデルにおける画像のパーソナライズのための最初のフレームワークについて紹介し、類似した個人からの協調的な信号を活用しながら、画像編集とユーザの好みを整合させる新しい手法であるC-DPO(Collaborative Direct Preference Optimization)を紹介した。
提案手法では,各ユーザを動的嗜好グラフのノードとして符号化し,軽量なグラフニューラルネットワークを用いて埋め込みを学習し,視覚的嗜好を重畳したユーザ間の情報共有を実現する。
個別のアライメントと近傍のコヒーレンスを協調的に最適化する新しいDPO目標に、これらのパーソナライズされた埋め込みを統合することで、拡散モデルの編集能力を向上する。
ユーザ調査や定量的ベンチマークを含む総合的な実験により,ユーザの好みに沿った編集生成において,本手法がベースラインを一貫して上回っていることが実証された。
関連論文リスト
- EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
提案手法は, 利用者の66~90%に好まれる。
論文 参考訳(メタデータ) (2025-02-06T13:08:43Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - DreamSteerer: Enhancing Source Image Conditioned Editability using Personalized Diffusion Models [7.418186319496487]
近年のテキスト・ツー・イメージのパーソナライズ手法は,ユーザ特定概念の拡散モデルを教える上で大きな可能性を秘めている。
有望な拡張は、パーソナライズされた概念を使って画像を編集するパーソナライズされた編集である。
本稿では,既存のT2Iパーソナライズ手法を拡張するプラグインであるDreamSteerを提案する。
論文 参考訳(メタデータ) (2024-10-15T02:50:54Z) - Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。