Fugu-MT 論文翻訳(概要): PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation

論文の概要: PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation

arxiv url: http://arxiv.org/abs/2404.00995v2
Date: Tue, 2 Apr 2024 05:16:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 22:56:51.587207
Title: PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation
Title（参考訳）: PosterLlama:Langaugeモデルによるコンテンツ認識レイアウト生成のためのブリッジング設計能力
Authors: Jaejung Seol, Seojun Kim, Jaejun Yoo,
Abstract要約: PosterLlamaは、視覚的およびテキスト的に一貫性のあるレイアウトを生成するように設計されたネットワークである。評価の結果,PosterLlamaは,信頼性とコンテンツ対応レイアウトの生成において,既存の手法よりも優れていることがわかった。これは、非条件のレイアウト生成、要素条件のレイアウト生成、レイアウトの完了など、非常に汎用性の高いユーザー操作ツールとして機能するなど、非パラレルな範囲の条件をサポートする。
参考スコア（独自算出の注目度）: 6.855409699832414
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual layout plays a critical role in graphic design fields such as advertising, posters, and web UI design. The recent trend towards content-aware layout generation through generative models has shown promise, yet it often overlooks the semantic intricacies of layout design by treating it as a simple numerical optimization. To bridge this gap, we introduce PosterLlama, a network designed for generating visually and textually coherent layouts by reformatting layout elements into HTML code and leveraging the rich design knowledge embedded within language models. Furthermore, we enhance the robustness of our model with a unique depth-based poster augmentation strategy. This ensures our generated layouts remain semantically rich but also visually appealing, even with limited data. Our extensive evaluations across several benchmarks demonstrate that PosterLlama outperforms existing methods in producing authentic and content-aware layouts. It supports an unparalleled range of conditions, including but not limited to unconditional layout generation, element conditional layout generation, layout completion, among others, serving as a highly versatile user manipulation tool.
Abstract（参考訳）: ビジュアルレイアウトは、広告、ポスター、Web UIデザインなどのグラフィックデザイン分野において重要な役割を果たす。生成モデルによるコンテンツ認識レイアウト生成への最近の傾向は、将来性を示しているが、単純な数値最適化として扱うことで、レイアウト設計のセマンティックな複雑さを無視することが多い。このギャップを埋めるために,レイアウト要素をHTMLコードに再構成し,言語モデルに埋め込まれた豊富な設計知識を活用することで,視覚的かつテキスト的に一貫性のあるレイアウトを生成するように設計されたネットワークであるPosterLlamaを紹介した。さらに、独自の奥行きに基づくポスター強化戦略により、モデルの堅牢性を高める。これにより、生成したレイアウトがセマンティックにリッチでありながら、限られたデータでも視覚的に魅力的であることを保証する。複数のベンチマークで評価した結果,PosterLlamaは,信頼性とコンテンツ対応レイアウトの生成において,既存の手法よりも優れていることがわかった。これは、非条件のレイアウト生成、要素条件のレイアウト生成、レイアウトの完了など、非常に汎用性の高いユーザー操作ツールとして機能するなど、非パラレルな範囲の条件をサポートする。

関連論文リスト

PosterO: Structuring Layout Trees to Enable Language Models in Generalized Content-Aware Layout Generation [38.53781264480452]
PosterOは、不愉快な目的のためにポスターを作成するためのレイアウト中心のアプローチである。 SVG言語のツリーとしてのデータセットからのレイアウトを、普遍的な形状、設計意図のベクトル化、階層的なノード表現によって構成する。与えられた画像に対して視覚的に魅力的なレイアウトを生成することができ、様々なベンチマークで新しい最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2025-05-06T18:42:24Z)
GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文参考訳（メタデータ） (2024-11-18T10:04:10Z)
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文参考訳（メタデータ） (2024-06-05T03:05:52Z)
Towards Aligned Layout Generation via Diffusion Model with Aesthetic Constraints [53.66698106829144]
広い範囲のレイアウト生成タスクを処理する統一モデルを提案する。このモデルは連続拡散モデルに基づいている。実験結果から,LACEは高品質なレイアウトを生成することがわかった。
論文参考訳（メタデータ） (2024-02-07T11:12:41Z)
LayoutGPT: Compositional Visual Planning and Generation with Large Language Models [98.81962282674151]
大規模言語モデル(LLM)は、テキスト条件からレイアウトを生成することで視覚的なプランナーとして機能する。本稿では,スタイルシート言語におけるコンテキスト内視覚的デモンストレーションを構成する手法であるLayoutGPTを提案する。
論文参考訳（メタデータ） (2023-05-24T17:56:16Z)
PosterLayout: A New Benchmark and Approach for Content-aware Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。 CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文参考訳（メタデータ） (2023-03-28T12:48:36Z)
LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文参考訳（メタデータ） (2022-12-19T21:57:35Z)
Constrained Graphic Layout Generation via Latent Optimization [17.05026043385661]
ユーザによって暗黙的に、あるいは明示的に、デザインセマンティクスを柔軟に組み込むことができるグラフィックレイアウトを生成します。提案手法はトランスフォーマーアーキテクチャに基づく生成的レイアウトモデルに基づいており,レイアウト生成を制約付き最適化問題として定式化している。実験では,1つのモデルを用いて,制約付きタスクと制約なしタスクの両方において,現実的なレイアウトを生成することができることを示す。
論文参考訳（メタデータ） (2021-08-02T13:04:11Z)
Attribute-conditioned Layout GAN for Automatic Graphic Design [38.30728086400307]
本稿では,Attribute-conditioned Layout GANを導入し,図形レイアウト生成のための設計要素の属性を組み込む。図形設計の複雑さから,識別器が要素の部分的リストを見て,その局所パターンを学習するための要素ドロップアウト手法を提案する。提案手法は,異なる要素属性に条件付けされたグラフィックレイアウトを合成できることを実証する。
論文参考訳（メタデータ） (2020-09-11T08:34:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。