論文の概要: PrefGen: Multimodal Preference Learning for Preference-Conditioned Image Generation
- arxiv url: http://arxiv.org/abs/2512.06020v1
- Date: Thu, 04 Dec 2025 02:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.154197
- Title: PrefGen: Multimodal Preference Learning for Preference-Conditioned Image Generation
- Title(参考訳): PrefGen: 優先条件付き画像生成のためのマルチモーダルな選好学習
- Authors: Wenyi Mo, Tianyu Zhang, Yalong Bai, Ligong Han, Ying Ba, Dimitris N. Metaxas,
- Abstract要約: 優先条件付き画像生成は、生成モデルを個々のユーザに適用し、与えられたプロンプトを超えて、個人の美的選択を反映したアウトプットを生成する。
マルチモーダルな大言語モデルを用いて、リッチなユーザ表現を抽出し、拡散に基づく画像生成に注入するフレームワークを提案する。
本手法は,画像品質と嗜好アライメントの両方において,強いベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 44.638427866399205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-conditioned image generation seeks to adapt generative models to individual users, producing outputs that reflect personal aesthetic choices beyond the given textual prompt. Despite recent progress, existing approaches either fail to capture nuanced user preferences or lack effective mechanisms to encode personalized visual signals. In this work, we propose a multimodal framework that leverages multimodal large language models (MLLMs) to extract rich user representations and inject them into diffusion-based image generation. We train the MLLM with a preference-oriented visual question answering task to capture fine-grained semantic cues. To isolate preference-relevant features, we introduce two complementary probing tasks: inter-user discrimination to distinguish between different users, and intra-user discrimination to separate liked from disliked content. To ensure compatibility with diffusion text encoders, we design a maximum mean discrepancy-based alignment loss that bridges the modality gap while preserving multimodal structure. The resulting embeddings are used to condition the generator, enabling faithful adherence to both prompts and user preferences. Extensive experiments demonstrate that our method substantially outperforms strong baselines in both image quality and preference alignment, highlighting the effectiveness of representation extraction and alignment for personalized generation.
- Abstract(参考訳): 優先条件付き画像生成は、生成モデルを個々のユーザに適用し、与えられたテキストプロンプトを超えて、個人の美的選択を反映した出力を生成する。
近年の進歩にもかかわらず、既存のアプローチでは、微妙なユーザの好みを捉えることができず、あるいはパーソナライズされた視覚信号をエンコードする効果的なメカニズムが欠如している。
本研究では,マルチモーダルな大規模言語モデル(MLLM)を利用して,リッチなユーザ表現を抽出し,拡散に基づく画像生成に注入するマルチモーダルフレームワークを提案する。
我々は,MLLM を嗜好指向の視覚的質問応答タスクで訓練し,細かな意味的手がかりを捉える。
嗜好関連特徴を分離するために、異なるユーザを区別するユーザ間識別と、嫌われるコンテンツと区別するユーザ内識別という2つの補完的探索タスクを導入する。
拡散テキストエンコーダとの互換性を確保するため,マルチモーダル構造を保ちながらモダリティギャップを橋渡しする平均誤差に基づくアライメント損失を設計する。
結果として生じる埋め込みはジェネレータを条件付けするために使用され、プロンプトとユーザの好みの両方に忠実に固執することができる。
画像品質と嗜好アライメントの両方において,提案手法は強いベースラインを著しく上回り,パーソナライズされた生成のための表現抽出とアライメントの有効性を強調した。
関連論文リスト
- Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs [74.74767980885758]
マルチレベル優先最適化フレームワークであるContext-to-Cue Direct Preference Optimization (CcDPO)を提案する。
CcDPOは、シーケンシャルなコンテキストからローカルな詳細まで、視覚的なヒントをズームすることで、マルチイメージ設定でのイメージ単位の知覚を強化する。
実験により、CcDPOは幻覚を著しく減少させ、一貫した性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2025-05-28T14:24:02Z) - OSPO: Object-centric Self-improving Preference Optimization for Text-to-Image Generation [9.584960092259033]
Object-centric Self-Iproving Preference Optimization (OSPO)は、オブジェクトレベルのテキストイメージアライメントを強化するための自己改善フレームワークである。
OSPOはテキスト・画像生成における微粒化アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2025-05-28T03:45:42Z) - Optimizing Multi-Round Enhanced Training in Diffusion Models for Improved Preference Understanding [29.191627597682597]
本稿では,ユーザの好みに合わせた報酬モデルを活用し,フィードバックをループに組み込んだフレームワークを提案する。
このアプローチは、特にマルチターン対話シナリオにおいて、ユーザの満足度において競合するモデルを一貫して上回ります。
論文 参考訳(メタデータ) (2025-04-25T09:35:02Z) - DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。
DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。
本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文 参考訳(メタデータ) (2025-04-24T08:10:10Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。