論文の概要: ICG: Improving Cover Image Generation via MLLM-based Prompting and Personalized Preference Alignment
- arxiv url: http://arxiv.org/abs/2605.27374v1
- Date: Wed, 08 Apr 2026 06:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.500228
- Title: ICG: Improving Cover Image Generation via MLLM-based Prompting and Personalized Preference Alignment
- Title(参考訳): ICG:MLLMによるプロンプトとパーソナライズされた選好アライメントによるカバー画像生成の改善
- Authors: Zhipeng Bian, Jieming Zhu, Qijiong Liu, Wang Lin, Guohao Cai, Zhaocheng Du, Jiacheng Sun, Zhou Zhao, Zhenhua Dong,
- Abstract要約: 我々は、MLLMベースのプロンプトとパーソナライズされた嗜好アライメントを統合し、文脈に関連のあるカバーを生成するフレームワークであるICGを提案する。
ICGは、アイテムタイトルとメタトークンを介して参照画像からセマンティックな特徴を抽出し、ユーザ埋め込みによってそれらを洗練し、結果としてパーソナライズされたコンテキストを拡散モデルに注入する。
実験により、ICGは画像の品質、セマンティックな忠実度、パーソナライゼーションを著しく改善し、ユーザの魅力とオフラインレコメンデーションの精度が向上することが示された。
- 参考スコア(独自算出の注目度): 70.19758313256503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) and diffusion models (DMs) have opened new possibilities for AI-generated content. Yet, personalized cover image generation remains underexplored, despite its critical role in boosting user engagement on digital platforms. We propose ICG, a novel framework that integrates MLLM-based prompting with personalized preference alignment to generate high-quality, contextually relevant covers. ICG extracts semantic features from item titles and reference images via meta tokens, refines them with user embeddings, and injects the resulting personalized context into the diffusion model. To address the lack of labeled supervision, we adopt a multi-reward learning strategy that combines public aesthetic and relevance rewards with a personalized preference model trained from user behavior. Unlike prior pipelines relying on handcrafted prompts and disjointed modules, ICG employs an adapter to bridge MLLMs and diffusion models for end-to-end training. Experiments demonstrate that ICG significantly improves image quality, semantic fidelity, and personalization, leading to stronger user appeal and offline recommendation accuracy in downstream tasks. As a plug-and-play adapter bridging MLLMs and diffusion models, ICG is compatible with common checkpoints and requires no ground-truth labels during optimization.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)と拡散モデル(DM)の最近の進歩は、AI生成コンテンツに新たな可能性をもたらした。
しかし、デジタルプラットフォーム上でユーザーエンゲージメントを高める上で重要な役割を担っているにもかかわらず、パーソナライズされたカバー画像生成はいまだ探索されていない。
我々は、MLLMベースのプロンプトとパーソナライズされた嗜好アライメントを統合し、高品質で文脈に関連のあるカバーを生成する新しいフレームワークであるICGを提案する。
ICGは、アイテムタイトルとメタトークンを介して参照画像からセマンティックな特徴を抽出し、ユーザ埋め込みによってそれらを洗練し、結果としてパーソナライズされたコンテキストを拡散モデルに注入する。
ラベル付き指導の欠如に対処するため,ユーザ行動から学習したパーソナライズされた嗜好モデルと公衆の美意識と関連性報酬を組み合わせたマルチリワード学習戦略を採用した。
手作りのプロンプトと解離モジュールに依存する以前のパイプラインとは異なり、ICGはMLLMと拡散モデルの橋渡しにアダプタを使用している。
実験により、ICGは画像の品質、セマンティックな忠実度、パーソナライゼーションを著しく改善し、ダウンストリームタスクにおけるユーザの魅力とオフラインレコメンデーションの精度が向上することが示された。
MLLMと拡散モデルをブリッジするプラグ・アンド・プレイアダプタとして、ICGは共通チェックポイントと互換性があり、最適化中にゼロトラストラベルを必要としない。
関連論文リスト
- Squeezing Capacity from Multimodal Large Language Models for Subject-driven Generation [22.419513267677278]
既存のアプローチはしばしばテキストと参照画像を別々にエンコードする。
マルチモーダルモデルと拡散モデルを結ぶ最近のフレームワークは、命令のフォローを改善するが、ほとんどはアイデンティティの保存を見落としている。
テキストと参照画像を共同でエンコードする多モーダル大言語モデル上での拡散モデルを構築し,それをVAEベースのID条件付きで拡張する。
提案手法は,マルチモーダル理解とアイデンティティ保護を調和させ,コピー・ペースト問題を緩和し,主観的画像生成における人間の嗜好に関する優れた性能を実現する。
論文 参考訳(メタデータ) (2026-05-25T17:59:35Z) - UniCustom: Unified Visual Conditioning for Multi-Reference Image Generation [65.53694602893042]
VLMエンコーディングの前にVTとVAE機能を融合した統合ビジュアルコンディショニングフレームワークを提案する。
2つのマルチ参照生成ベンチマークの実験により、UniCustomは主題の一貫性、命令従順、構成の忠実さを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-05-12T13:10:05Z) - PrefGen: Multimodal Preference Learning for Preference-Conditioned Image Generation [44.638427866399205]
優先条件付き画像生成は、生成モデルを個々のユーザに適用し、与えられたプロンプトを超えて、個人の美的選択を反映したアウトプットを生成する。
マルチモーダルな大言語モデルを用いて、リッチなユーザ表現を抽出し、拡散に基づく画像生成に注入するフレームワークを提案する。
本手法は,画像品質と嗜好アライメントの両方において,強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-12-04T02:57:29Z) - Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance [74.89810064807142]
Implicit Multimodal Guidance(IMG)は、新しい世代ベースのマルチモーダルアライメントフレームワークである。
IMGはミスアライメントを特定し、再アライメント目標をトレーニング可能な目標に定式化する。
IMGはフレキシブルなプラグアンドプレイアダプタとして機能し、ファインチューニングベースのアライメント手法をシームレスに強化する。
論文 参考訳(メタデータ) (2025-09-30T13:27:03Z) - DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。
DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。
本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文 参考訳(メタデータ) (2025-04-24T08:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。