論文の概要: RefAdGen: High-Fidelity Advertising Image Generation
- arxiv url: http://arxiv.org/abs/2508.11695v1
- Date: Tue, 12 Aug 2025 18:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.272048
- Title: RefAdGen: High-Fidelity Advertising Image Generation
- Title(参考訳): RefAdGen:高忠実な広告画像生成
- Authors: Yiyun Chen, Weikai Yang,
- Abstract要約: RefAdGenは、分離された設計によって高い忠実性を達成する世代フレームワークである。
我々はRefAdGenが最先端のパフォーマンスを達成し、高忠実さと目立った視覚的結果を維持することで、高精細度を保ちながら、実世界と実世界の両方に挑戦し、高精細度で高精細度で高精細度で高精細度で高精細度で高精細度で高精細度な画像化を実現していることを示す。
- 参考スコア(独自算出の注目度): 2.38180456064897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Artificial Intelligence Generated Content (AIGC) techniques has unlocked opportunities in generating diverse and compelling advertising images based on referenced product images and textual scene descriptions. This capability substantially reduces human labor and production costs in traditional marketing workflows. However, existing AIGC techniques either demand extensive fine-tuning for each referenced image to achieve high fidelity, or they struggle to maintain fidelity across diverse products, making them impractical for e-commerce and marketing industries. To tackle this limitation, we first construct AdProd-100K, a large-scale advertising image generation dataset. A key innovation in its construction is our dual data augmentation strategy, which fosters robust, 3D-aware representations crucial for realistic and high-fidelity image synthesis. Leveraging this dataset, we propose RefAdGen, a generation framework that achieves high fidelity through a decoupled design. The framework enforces precise spatial control by injecting a product mask at the U-Net input, and employs an efficient Attention Fusion Module (AFM) to integrate product features. This design effectively resolves the fidelity-efficiency dilemma present in existing methods. Extensive experiments demonstrate that RefAdGen achieves state-of-the-art performance, showcasing robust generalization by maintaining high fidelity and remarkable visual results for both unseen products and challenging real-world, in-the-wild images. This offers a scalable and cost-effective alternative to traditional workflows. Code and datasets are publicly available at https://github.com/Anonymous-Name-139/RefAdgen.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)技術の急速な進歩は、参照された製品画像とテキストシーン記述に基づいて、多種多様な魅力的な広告画像を生成する機会を開放した。
この能力は、従来のマーケティングワークフローにおける人的労力と生産コストを大幅に削減する。
しかし、既存のAIGC技術は、参照された各画像に対して高い忠実さを達成するために広範な微調整を要求するか、多種多様な製品の忠実さを維持するのに苦労しているかのいずれかであり、電子商取引やマーケティング業界にとって実用的ではない。
この制限に対処するため、我々はまず大規模な広告画像生成データセットであるAdProd-100Kを構築した。
この戦略は、現実的で高忠実な画像合成に欠かせない、堅牢で3D対応の表現を促進する。
このデータセットを活用することで、疎結合設計により高忠実性を実現する生成フレームワークであるRefAdGenを提案する。
このフレームワークは、U-Net入力に製品マスクを注入することで正確な空間制御を行い、製品機能を統合するために効率的な注意融合モジュール(AFM)を使用する。
この設計は、既存の方法に存在する忠実度効率ジレンマを効果的に解決する。
大規模な実験により、RefAdGenは最先端のパフォーマンスを達成し、高い忠実さと目立った視覚的結果を維持することで、堅牢な一般化を示す。
これは従来のワークフローに代わるスケーラブルで費用効果の高い代替手段を提供する。
コードとデータセットはhttps://github.com/Anonymous-Name-139/RefAdgen.comで公開されている。
関連論文リスト
- Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [66.73899356886652]
我々は、事前訓練された視覚基盤モデルの上に画像トークン化器を直接構築する。
提案する画像トークンーであるVFMTokは、画像再構成と生成品質を大幅に改善する。
ImageNetベンチマークで2.07のgFIDを達成することで、自動回帰(AR)生成をさらに強化する。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers [30.583932208752877]
電子商取引とデジタルマーケティングでは、高忠実な人間製品デモビデオを生成することが重要である。
人間のアイデンティティと製品固有の詳細を保存するための拡散変換器(DiT)ベースのフレームワークを提案する。
我々は3Dボディーメッシュテンプレートと製品バウンディングボックスを用いて、正確な動作ガイダンスを提供し、手ジェスチャーと製品配置の直感的なアライメントを可能にする。
論文 参考訳(メタデータ) (2025-06-12T10:58:23Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Preserving Product Fidelity in Large Scale Image Recontextualization with Diffusion Models [1.8606057023042066]
本稿では,テキスト・ツー・イメージ拡散モデルと新しいデータ拡張パイプラインを用いた高忠実度製品画像再構成のためのフレームワークを提案する。
本手法は,生成画像の品質と多様性を,製品表現を分離し,モデルによる製品特性の理解を深めることによって改善する。
論文 参考訳(メタデータ) (2025-03-11T01:24:39Z) - CTR-Driven Advertising Image Generation with Multimodal Large Language Models [53.40005544344148]
本稿では,Click-Through Rate (CTR) を主目的とし,マルチモーダル大言語モデル(MLLM)を用いた広告画像の生成について検討する。
生成した画像のCTRをさらに改善するため、強化学習(RL)を通して事前学習したMLLMを微調整する新たな報酬モデルを提案する。
本手法は,オンラインとオフラインの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-05T09:06:02Z) - Generative AI for Vision: A Comprehensive Study of Frameworks and Applications [0.0]
生成AIは画像合成を変換し、高品質で多様性があり、フォトリアリスティックなビジュアルを作成することができる。
本研究は,入力の性質に基づく画像生成技術の構造的分類を提案する。
DALL-E、ControlNet、DeepSeek Janus-Proといった主要なフレームワークを強調し、計算コスト、データバイアス、ユーザ意図とのアウトプットアライメントといった課題に対処します。
論文 参考訳(メタデータ) (2025-01-29T22:42:05Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Interactive Data Synthesis for Systematic Vision Adaptation via
LLMs-AIGCs Collaboration [48.54002313329872]
本稿では,ChatGenImageというアノテーション付きデータ拡張の新しいパラダイムを提案する。
その中核となる考え方は、多様なモデルの補完的な強みを活用して、インタラクティブなデータ拡張のための高効率でユーザフレンドリなパイプラインを確立することである。
筆者らはChatGenImageフレームワークから得られた興味深い結果を提示し, 系統的視覚適応のための合成データの強力なポテンシャルを実証する。
論文 参考訳(メタデータ) (2023-05-22T07:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。