論文の概要: Content-Aware Ad Banner Layout Generation with Two-Stage Chain-of-Thought in Vision Language Models
- arxiv url: http://arxiv.org/abs/2512.12596v1
- Date: Sun, 14 Dec 2025 08:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.336515
- Title: Content-Aware Ad Banner Layout Generation with Two-Stage Chain-of-Thought in Vision Language Models
- Title(参考訳): 視覚言語モデルにおける2段階連鎖を用いたコンテンツ対応広告バナーレイアウト生成
- Authors: Kei Yoshitake, Kento Hosono, Ken Kobayashi, Kazuhide Nakata,
- Abstract要約: VLM(Vision-Language Model)を利用した画像ベース広告のレイアウト生成手法を提案する。
提案手法は,VLMを用いて,背景に描かれている製品やその他の要素を認識し,テキストやロゴの配置を通知する。
- 参考スコア(独自算出の注目度): 3.0133884087546536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a method for generating layouts for image-based advertisements by leveraging a Vision-Language Model (VLM). Conventional advertisement layout techniques have predominantly relied on saliency mapping to detect salient regions within a background image, but such approaches often fail to fully account for the image's detailed composition and semantic content. To overcome this limitation, our method harnesses a VLM to recognize the products and other elements depicted in the background and to inform the placement of text and logos. The proposed layout-generation pipeline consists of two steps. In the first step, the VLM analyzes the image to identify object types and their spatial relationships, then produces a text-based "placement plan" based on this analysis. In the second step, that plan is rendered into the final layout by generating HTML-format code. We validated the effectiveness of our approach through evaluation experiments, conducting both quantitative and qualitative comparisons against existing methods. The results demonstrate that by explicitly considering the background image's content, our method produces noticeably higher-quality advertisement layouts.
- Abstract(参考訳): 本稿では,VLM(Vision-Language Model)を利用した画像ベース広告のレイアウト生成手法を提案する。
従来の広告レイアウト技術は、背景画像内の有意な領域を検出するために、主に塩分マッピングに依存してきたが、そのような手法は画像の詳細な構成やセマンティックな内容を完全に説明できないことが多い。
この制限を克服するために,本手法はVLMを利用して,背景に描かれている製品や要素を認識し,テキストやロゴの配置を通知する。
提案されたレイアウト生成パイプラインは、2つのステップから構成される。
最初のステップでは、VLMは画像を分析し、オブジェクトの種類とその空間的関係を識別し、この分析に基づいてテキストベースの「配置計画」を生成する。
2番目のステップでは、HTMLフォーマットのコードを生成することで、最終的なレイアウトに計画がレンダリングされます。
提案手法の有効性を評価実験により検証し,既存手法と比較して定量的および定性的な比較を行った。
提案手法は,背景画像の内容を明示的に考慮し,顕著に高品質な広告レイアウトを生成する。
関連論文リスト
- Generating Intermediate Representations for Compositional Text-To-Image Generation [16.757550214291015]
2つの段階に基づくテキスト・画像生成のための合成手法を提案する。
第1段階では,テキストに条件付けされた1つ以上の中間表現を生成する拡散に基づく生成モデルを設計する。
第2段階では、これらの表現をテキストとともに、別個の拡散ベース生成モデルを用いて最終出力画像にマッピングする。
論文 参考訳(メタデータ) (2024-10-13T10:24:55Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Prompting Large Vision-Language Models for Compositional Reasoning [12.908633583017359]
本研究では,大規模な視覚言語モデルに画像の描写を促し,合成推論を行う新しい生成手法を提案する。
提案手法は,Winogroundデータセット上の他の埋め込み手法よりも優れており,最適記述によって拡張された場合,最大10%の精度が向上する。
論文 参考訳(メタデータ) (2024-01-20T22:04:28Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Domain Agnostic Image-to-image Translation using Low-Resolution
Conditioning [6.470760375991825]
ドメインが関係するきめ細かい問題に対して,ドメインに依存しないi2i法を提案する。
本稿では、生成モデルを訓練し、関連するソース画像の固有情報を共有する画像を生成する新しいアプローチを提案する。
CelebA-HQ と AFHQ のデータセット上で,視覚的品質の向上を実証し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-05-08T19:58:49Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。