論文の概要: InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation
- arxiv url: http://arxiv.org/abs/2603.05898v1
- Date: Fri, 06 Mar 2026 04:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.084718
- Title: InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation
- Title(参考訳): InnoAds-Composer:E-Commerce Poster 生成のための効率的な条件構成
- Authors: Yuxin Qin, Ke Cao, Haowei Liu, Ao Ma, Fengheng Li, Honghe Zhu, Zheng Zhang, Run Ling, Wei Feng, Xuanhua He, Zhanjie Zhang, Zhen Guo, Haoyi Bian, Jingjing Lv, Junjie Shen, Ching Law,
- Abstract要約: 本稿では,主観,グリフ,スタイルよりも効率的な三条件制御トークンを実現するための単一ステージフレームワークを提案する。
InnoAds-Composerは、推論遅延を明らかに増加させることなく、既存の製品ポスター手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 27.024838488122104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: E-commerce product poster generation aims to automatically synthesize a single image that effectively conveys product information by presenting a subject, text, and a designed style. Recent diffusion models with fine-grained and efficient controllability have advanced product poster synthesis, yet they typically rely on multi-stage pipelines, and simultaneous control over subject, text, and style remains underexplored. Such naive multi-stage pipelines also show three issues: poor subject fidelity, inaccurate text, and inconsistent style. To address these issues, we propose InnoAds-Composer, a single-stage framework that enables efficient tri-conditional control tokens over subject, glyph, and style. To alleviate the quadratic overhead introduced by naive tri-conditional token concatenation, we perform importance analysis over layers and timesteps and route each condition only to the most responsive positions, thereby shortening the active token sequence. Besides, to improve the accuracy of Chinese text rendering, we design a Text Feature Enhancement Module (TFEM) that integrates features from both glyph images and glyph crops. To support training and evaluation, we also construct a high-quality e-commerce product poster dataset and benchmark, which is the first dataset that jointly contains subject, text, and style conditions. Extensive experiments demonstrate that InnoAds-Composer significantly outperforms existing product poster methods without obviously increasing inference latency.
- Abstract(参考訳): 電子商取引製品ポスター生成は、主題、テキスト、デザインスタイルを提示することにより、商品情報を効果的に伝達する単一の画像を自動的に合成することを目的としている。
細粒度で効率的な制御性を持つ最近の拡散モデルでは、先進的な製品ポスター合成がされているが、一般的には多段パイプラインに依存しており、主題、テキスト、スタイルの同時制御は未解明のままである。
このような単純で多段階的なパイプラインは、被写体忠実性の悪い、不正確なテキスト、一貫性のないスタイルの3つの問題も示している。
InnoAds-Composerは,被験者,グリフ,スタイルよりも効率的な三条件制御トークンを実現する,シングルステージフレームワークである。
三条件トークン結合によって引き起こされる二次的オーバーヘッドを軽減するため、各条件を最も応答性の高い位置にのみルーティングし、アクティブなトークンシーケンスを短縮する。
また、中国語のテキストレンダリングの精度を向上させるために、グリフ画像とグリフクロップの両方の機能を統合するテキスト特徴強調モジュール(TFEM)を設計する。
トレーニングと評価を支援するため,高品質なeコマース製品ポスターデータセットとベンチマークを構築した。
大規模な実験によると、InnoAds-Composerは推論遅延を明らかに増加させることなく、既存の製品ポスター手法を大幅に上回っている。
関連論文リスト
- EfficientPosterGen: Semantic-aware Efficient Poster Generation via Token Compression and Accurate Violation Detection [31.15442597866692]
EfficientPosterGenは、学術ポスターの自動生成のためのエンドツーエンドフレームワークである。
セマンティックアウェア検索とトークン効率のマルチモーダル生成を導入している。
トークンの効率とレイアウトの信頼性を大幅に向上させる。
論文 参考訳(メタデータ) (2026-02-25T17:03:39Z) - Unified Text-Image Generation with Weakness-Targeted Post-Training [57.956648078400775]
テキストと画像を共同で生成する統一マルチモーダル生成アーキテクチャは、最近、テキスト・ツー・イメージ(T2I)合成の有望な方向として登場した。
この研究は、モデルがテキスト推論から視覚合成へ自律的に遷移する、完全に統一されたテキスト画像生成を実現するためのポストトレーニングを探求する。
論文 参考訳(メタデータ) (2026-01-07T19:19:44Z) - Geometric Disentanglement of Text Embeddings for Subject-Consistent Text-to-Image Generation using A Single Prompt [14.734857939203811]
主観的視点から意味的絡み合いに対処する学習自由アプローチを提案する。
提案手法は既存のベースラインに対する主観的一貫性とテキストアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2025-12-18T11:55:06Z) - UniGlyph: Unified Segmentation-Conditioned Diffusion for Precise Visual Text Synthesis [38.658170067715965]
画素レベルの視覚テキストマスクを統一された条件入力として用いるセグメンテーション誘導フレームワークを提案する。
提案手法は,AnyTextベンチマークの最先端性能を実現する。
レイアウトテストのためのGlyphMM-benchmarkと、小規模テキスト領域における生成品質の評価のためのMiniText-benchmarkの2つの新しいベンチマークも導入した。
論文 参考訳(メタデータ) (2025-07-01T17:42:19Z) - PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering [50.76106125697899]
テーマ、シーン、テキストを統合したプロダクトポスターは、顧客を引き付けるための重要なプロモーションツールである。
主な課題はテキストを正確にレンダリングすることであり、特に1万文字以上を含む中国語のような複雑な書記システムではそうである。
テキストレンダリング精度が90%を超えるTextRenderNetを開発した。
TextRenderNetとSceneGenNetをベースに、エンドツーエンド生成フレームワークであるPosterMakerを紹介します。
論文 参考訳(メタデータ) (2025-04-09T07:13:08Z) - PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides [51.88536367177796]
そこで本研究では,人案に触発された2段階の編集手法を提案し,プレゼンテーションを自動的に生成する。
PWTAgentはまず参照を分析し、スライドレベルの関数型とコンテンツスキーマを抽出し、選択した参照スライドに基づいて編集アクションを生成する。
PWTAgentは、既存の3次元のプレゼンテーション生成方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-01-07T16:53:01Z) - GlyphDraw2: Automatic Generation of Complex Glyph Posters with Diffusion Models and Large Language Models [7.152732507491591]
LLMを利用したテキストレンダリング機能を備えた自動ポスター生成フレームワークを提案する。
このフレームワークは、詳細な背景の中で正確なポスターテキストを作成することを目的としている。
解像度が1024ピクセルを超える高解像度フォントデータセットとポスターデータセットを導入する。
論文 参考訳(メタデータ) (2024-07-02T13:17:49Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Compositional Text-to-Image Synthesis with Attention Map Control of
Diffusion Models [8.250234707160793]
近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを条件とした高品質な画像の生成に優れた性能を示す。
コンポジション機能に制限があるため、生成したイメージとプロンプトを意味的にアライメントすることができない。
本稿では,これらの問題に対処するために,予測オブジェクトボックスに基づく新しいアテンションマスク制御手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T10:49:22Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。