論文の概要: One Size, Many Fits: Aligning Diverse Group-Wise Click Preferences in Large-Scale Advertising Image Generation
- arxiv url: http://arxiv.org/abs/2602.02033v1
- Date: Mon, 02 Feb 2026 12:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.143124
- Title: One Size, Many Fits: Aligning Diverse Group-Wise Click Preferences in Large-Scale Advertising Image Generation
- Title(参考訳): 1サイズ、多くの要素:大規模広告画像生成における異種グループワイズクリックの選好の調整
- Authors: Shuo Lu, Haohan Wang, Wei Feng, Weizhen Wang, Shen Zhang, Yaoyu Li, Ao Ma, Zheng Zhang, Jingjing Lv, Junjie Shen, Ching Law, Bing Zhan, Yuan Xu, Huizai Yao, Yongcan Yu, Chenyang Si, Jian Liang,
- Abstract要約: textitOne Size, Many Fits (OSMF) は、大規模な広告画像生成において、多様なグループワイドなクリック嗜好を整合させる統合フレームワークである。
我々のフレームワークは、オフラインとオンラインの両方で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 50.56156461820234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advertising image generation has increasingly focused on online metrics like Click-Through Rate (CTR), yet existing approaches adopt a ``one-size-fits-all" strategy that optimizes for overall CTR while neglecting preference diversity among user groups. This leads to suboptimal performance for specific groups, limiting targeted marketing effectiveness. To bridge this gap, we present \textit{One Size, Many Fits} (OSMF), a unified framework that aligns diverse group-wise click preferences in large-scale advertising image generation. OSMF begins with product-aware adaptive grouping, which dynamically organizes users based on their attributes and product characteristics, representing each group with rich collective preference features. Building on these groups, preference-conditioned image generation employs a Group-aware Multimodal Large Language Model (G-MLLM) to generate tailored images for each group. The G-MLLM is pre-trained to simultaneously comprehend group features and generate advertising images. Subsequently, we fine-tune the G-MLLM using our proposed Group-DPO for group-wise preference alignment, which effectively enhances each group's CTR on the generated images. To further advance this field, we introduce the Grouped Advertising Image Preference Dataset (GAIP), the first large-scale public dataset of group-wise image preferences, including around 600K groups built from 40M users. Extensive experiments demonstrate that our framework achieves the state-of-the-art performance in both offline and online settings. Our code and datasets will be released at https://github.com/JD-GenX/OSMF.
- Abstract(参考訳): 画像生成の広告は、Click-Through Rate (CTR)のようなオンラインメトリクスに重点を置いているが、既存のアプローチでは、ユーザグループ間の好みの多様性を無視しながら、全体的なCTRを最適化する ‘one-size-fits-all’ 戦略を採用している。
これは特定のグループに対する最適以下のパフォーマンスをもたらし、ターゲットとしたマーケティング効果を制限する。
このギャップを埋めるために、大規模な広告画像生成において、多様なグループワイドなクリック嗜好を整合させる統合フレームワークである「textit{One Size, Many Fits} (OSMF)」を提示する。
OSMFは、製品に適応したグループ化から始まり、属性と製品特性に基づいて動的にユーザを編成し、各グループに豊富な集団的嗜好の特徴を表現している。
これらのグループに基づいて、優先条件付き画像生成では、グループ対応のマルチモーダル大言語モデル(G-MLLM)を用いて、各グループに適した画像を生成する。
G−MLLMは、グループ特徴を同時に理解し、広告画像を生成するように事前訓練される。
その後、G-MLLMをグループワイド優先アライメントにG-DPOを用いて微調整し、生成した画像上で各グループのCTRを効果的に強化する。
この領域をさらに進めるために、4000万ユーザから構築された約6万グループを含む、グループワイド画像嗜好に関する最初の大規模パブリックデータセットであるGrouped Advertising Image Preference Dataset (GAIP)を紹介した。
大規模な実験により、我々のフレームワークはオフラインとオンラインの両方で最先端のパフォーマンスを実現していることが示された。
コードとデータセットはhttps://github.com/JD-GenX/OSMF.orgで公開されます。
関連論文リスト
- GroupCoOp: Group-robust Fine-tuning via Group Prompt Learning [57.888537648437115]
Group Context Optimization (GroupCoOp) は、単純で効果的な微調整アルゴリズムである。
微調整視覚言語モデル(VLM)の群ロバスト性を高める
GroupCoOpは、5つのCLIPアーキテクチャにわたる5つのベンチマークで最高の結果を得た。
論文 参考訳(メタデータ) (2025-09-28T09:54:30Z) - Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs [74.74767980885758]
マルチレベル優先最適化フレームワークであるContext-to-Cue Direct Preference Optimization (CcDPO)を提案する。
CcDPOは、シーケンシャルなコンテキストからローカルな詳細まで、視覚的なヒントをズームすることで、マルチイメージ設定でのイメージ単位の知覚を強化する。
実験により、CcDPOは幻覚を著しく減少させ、一貫した性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2025-05-28T14:24:02Z) - CTR-Driven Advertising Image Generation with Multimodal Large Language Models [53.40005544344148]
本稿では,Click-Through Rate (CTR) を主目的とし,マルチモーダル大言語モデル(MLLM)を用いた広告画像の生成について検討する。
生成した画像のCTRをさらに改善するため、強化学習(RL)を通して事前学習したMLLMを微調整する新たな報酬モデルを提案する。
本手法は,オンラインとオフラインの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-05T09:06:02Z) - MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。
MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文 参考訳(メタデータ) (2024-10-23T07:56:48Z) - Group Preference Optimization: Few-Shot Alignment of Large Language Models [28.464834028110538]
グループ優先最適化(Group Preference Optimization)は、言語モデルを数ショットで個々のグループを選好する。
大規模言語モデルを用いた厳密な評価により, GPOの有効性を実証的に検証した。
以上の結果から,GPOはモデルをより正確に整合させるだけでなく,グループ固有の嗜好を少なくし,トレーニングや推論のリソースを少なくする。
論文 参考訳(メタデータ) (2023-10-17T18:41:57Z) - Overcoming Data Sparsity in Group Recommendation [52.00998276970403]
グループレコメンデータシステムは、ユーザの個人的な好みだけでなく、嗜好集約戦略も正確に学習できなければならない。
本稿では,BGEM(Bipartite Graphding Model)とGCN(Graph Convolutional Networks)を基本構造として,グループとユーザ表現を統一的に学習する。
論文 参考訳(メタデータ) (2020-10-02T07:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。