論文の概要: From Prompt to Production:Automating Brand-Safe Marketing Imagery with Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2602.13349v1
- Date: Thu, 12 Feb 2026 21:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.937297
- Title: From Prompt to Production:Automating Brand-Safe Marketing Imagery with Text-to-Image Models
- Title(参考訳): プロンプトからプロダクションへ:テキストから画像モデルによるブランドセーフマーケティングイメージの自動化
- Authors: Parmida Atighehchian, Henry Wang, Andrei Kapustin, Boris Lerner, Tiancheng Jiang, Taylor Jensen, Negin Sokhandan,
- Abstract要約: 本稿では,テキスト・ツー・イメージ・モデルを用いて商用製品のマーケティングイメージを生成するための,完全自動化されたスケーラブルなソリューションを提供するパイプラインを提案する。
提案システムは,画像の品質と忠実さを維持しつつ,マーケティングガイドラインに準拠した十分な創造的バリエーションを導入している。
- 参考スコア(独自算出の注目度): 3.751381767989883
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image models have made significant strides, producing impressive results in generating images from textual descriptions. However, creating a scalable pipeline for deploying these models in production remains a challenge. Achieving the right balance between automation and human feedback is critical to maintain both scale and quality. While automation can handle large volumes, human oversight is still an essential component to ensure that the generated images meet the desired standards and are aligned with the creative vision. This paper presents a new pipeline that offers a fully automated, scalable solution for generating marketing images of commercial products using text-to-image models. The proposed system maintains the quality and fidelity of images, while also introducing sufficient creative variation to adhere to marketing guidelines. By streamlining this process, we ensure a seamless blend of efficiency and human oversight, achieving a $30.77\%$ increase in marketing object fidelity using DINOV2 and a $52.00\%$ increase in human preference over the generated outcome.
- Abstract(参考訳): テキスト・ツー・イメージのモデルは大きな進歩を遂げ、テキスト記述から画像を生成するという印象的な結果を生み出した。
しかしながら、これらのモデルを本番環境にデプロイするためのスケーラブルなパイプラインを作成することは、依然として課題である。
自動化と人間のフィードバックの適切なバランスを得るためには、スケールと品質の両方を維持することが重要です。
自動化は大量のデータを処理できるが、生成したイメージが望ましい基準を満たし、創造的なビジョンに適合するようにするためには、人間の監視が依然として不可欠である。
本稿では,テキスト・ツー・イメージ・モデルを用いて商用製品のマーケティングイメージを生成するための,完全自動化されたスケーラブルなソリューションを提供するパイプラインを提案する。
提案システムは,画像の品質と忠実さを維持しつつ,マーケティングガイドラインに準拠した十分な創造的バリエーションを導入している。
このプロセスの合理化によって、効率性と人間の監視のシームレスなブレンドが保証され、DINOV2を使ったマーケティング対象の忠実度が30.77ドル、生成した結果に対する人間の嗜好が52.00ドル%向上する。
関連論文リスト
- RefAdGen: High-Fidelity Advertising Image Generation [2.38180456064897]
RefAdGenは、分離された設計によって高い忠実性を達成する世代フレームワークである。
我々はRefAdGenが最先端のパフォーマンスを達成し、高忠実さと目立った視覚的結果を維持することで、高精細度を保ちながら、実世界と実世界の両方に挑戦し、高精細度で高精細度で高精細度で高精細度で高精細度で高精細度で高精細度な画像化を実現していることを示す。
論文 参考訳(メタデータ) (2025-08-12T18:25:31Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - Policy Optimized Text-to-Image Pipeline Design [73.9633527029941]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.57727062920458]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Towards Reliable Advertising Image Generation Using Human Feedback [24.8070207104717]
生成した画像を自動的に検査するマルチモーダル信頼フィードバックネットワーク(RFNet)を提案する。
生産効率をさらに高めるため, 革新的一貫性条件正則化を用いた微調整拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-08-01T09:39:27Z) - Class-Conditional self-reward mechanism for improved Text-to-Image models [1.8434042562191815]
我々は、自己回帰モデルの概念に基づいて、テキストから画像への生成AIモデルに匹敵するビジョンを導入する。
このアプローチは、自己生成した自己判断データセット上での微調整拡散モデルによって機能する。
既存の商用および研究用テキスト・ツー・イメージ・モデルよりも60%以上優れていると評価されている。
論文 参考訳(メタデータ) (2024-05-22T09:28:43Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。