論文の概要: Scan-and-Print: Patch-level Data Summarization and Augmentation for Content-aware Layout Generation in Poster Design
- arxiv url: http://arxiv.org/abs/2505.20649v1
- Date: Tue, 27 May 2025 02:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.366946
- Title: Scan-and-Print: Patch-level Data Summarization and Augmentation for Content-aware Layout Generation in Poster Design
- Title(参考訳): Scan-and-Print:Patch-level Data Summarization and Augmentation for Content-Aware Layout Generation in Poster Design (特集:情報ネットワーク)
- Authors: HsiaoYuan Hsu, Yuxin Peng,
- Abstract要約: AIを活用したポスターデザインでは、ビジュアルテキスト要素のイメージ配置にコンテンツ認識レイアウト生成が不可欠である。
本稿では,Scan-and-Printというパッチレベルのデータ要約と拡張手法を提案する。
Scan-and-Printは、最先端の品質で視覚的に魅力的なレイアウトを生成できる一方で、計算ボトルネックを95.2%劇的に低減できることを示す。
- 参考スコア(独自算出の注目度): 38.53781264480452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In AI-empowered poster design, content-aware layout generation is crucial for the on-image arrangement of visual-textual elements, e.g., logo, text, and underlay. To perceive the background images, existing work demanded a high parameter count that far exceeds the size of available training data, which has impeded the model's real-time performance and generalization ability. To address these challenges, we proposed a patch-level data summarization and augmentation approach, vividly named Scan-and-Print. Specifically, the scan procedure selects only the patches suitable for placing element vertices to perform fine-grained perception efficiently. Then, the print procedure mixes up the patches and vertices across two image-layout pairs to synthesize over 100% new samples in each epoch while preserving their plausibility. Besides, to facilitate the vertex-level operations, a vertex-based layout representation is introduced. Extensive experimental results on widely used benchmarks demonstrated that Scan-and-Print can generate visually appealing layouts with state-of-the-art quality while dramatically reducing computational bottleneck by 95.2%.
- Abstract(参考訳): AIを活用したポスターデザインでは、視覚的テキスト要素、例えばロゴ、テキスト、アンダーレイのオンイメージアレンジには、コンテンツ認識レイアウト生成が不可欠である。
背景画像を認識するため、既存の作業では、利用可能なトレーニングデータよりもはるかに大きなパラメータ数を必要としており、これはモデルのリアルタイムのパフォーマンスと一般化能力を妨げている。
これらの課題に対処するため、私たちはScan-and-Printという鮮明な名前のパッチレベルのデータ要約と拡張アプローチを提案しました。
特に、スキャン手順は、要素頂点の配置に適したパッチのみを選択して、きめ細かい知覚を効率的に行う。
そして、プリント手順は2つの画像レイアウトペアにパッチと頂点を混ぜ合わせて、それぞれのエポックで100%以上の新しいサンプルを合成し、その妥当性を維持します。
さらに、頂点レベルの操作を容易にするために、頂点ベースのレイアウト表現を導入する。
広く使われているベンチマーク実験の結果、Scan-and-Printは最先端の品質で視覚的に魅力的なレイアウトを生成できる一方で、計算ボトルネックを95.2%劇的に低減できることを示した。
関連論文リスト
- TokBench: Evaluating Your Visual Tokenizer before Visual Generation [75.38270351179018]
さまざまな画像トークンやVAEに対して,テキストと顔の復元品質をさまざまな尺度で分析する。
以上の結果から, 現代の視覚トークン化器は, 特に小規模では, 細粒度保存に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-23T17:52:16Z) - LCM-Lookahead for Encoder-based Text-to-Image Personalization [82.56471486184252]
我々は,テキスト・ツー・イメージ・モデルのパーソナライズを導くために,ショートカット・メカニズムを利用する可能性を探る。
エンコーダをベースとしたパーソナライズ手法に焦点をあてて、ルックアヘッドのアイデンティティ損失を調整することで、より高いアイデンティティの忠実性を達成できることを実証する。
論文 参考訳(メタデータ) (2024-04-04T17:43:06Z) - U-Sketch: An Efficient Approach for Sketch to Image Diffusion Models [3.693613218794592]
拡散モデルはテキスト・画像合成において顕著な性能を示した。
その成功にもかかわらず、ディフュージョンモデルはまだスケッチ・ツー・イメージ合成タスクに遅れを取っている。
U-Net型潜在エッジ予測器を備えたフレームワークであるU-Sketchを紹介する。
論文 参考訳(メタデータ) (2024-03-27T10:26:42Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - High-Resolution Complex Scene Synthesis with Transformers [6.445605125467574]
深層生成モデルによる複雑なシーン画像の粗粒合成が最近人気を集めている。
本稿では, 生成モデルが, 追加の目的を持たず, 純粋帰納的学習に基づく, この課題に対するアプローチを提案する。
提案システムは,所定のレイアウトに整合した高品質な画像を合成可能であることを示す。
論文 参考訳(メタデータ) (2021-05-13T17:56:07Z) - Semantic Layout Manipulation with High-Resolution Sparse Attention [106.59650698907953]
本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。
このタスクの中核的な問題は、視覚的にイメージを現実的にしながら、入力画像から新しいセマンティックレイアウトに視覚的な詳細を転送する方法です。
512×512の解像度で視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2020-12-14T06:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。