論文の概要: GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts
- arxiv url: http://arxiv.org/abs/2411.11435v1
- Date: Mon, 18 Nov 2024 10:04:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:32:57.508247
- Title: GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts
- Title(参考訳): GLDesigner: 審美テキストのグリフレイアウトのためのデザイナとしてのマルチモーダルLCMの活用
- Authors: Junwen He, Yifan Wang, Lijun Wang, Huchuan Lu, Jun-Yan He, Chenyang Li, Hanyuan Chen, Jin-Peng Lan, Bin Luo, Yifeng Geng,
- Abstract要約: コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
- 参考スコア(独自算出の注目度): 53.568057283934714
- License:
- Abstract: Text logo design heavily relies on the creativity and expertise of professional designers, in which arranging element layouts is one of the most important procedures. However, few attention has been paid to this specific task which needs to take precise textural details and user constraints into consideration, but only on the broader tasks such as document/poster layout generation. In this paper, we propose a VLM-based framework that generates content-aware text logo layouts by integrating multi-modal inputs with user constraints, supporting a more flexible and stable layout design in real-world applications. We introduce two model techniques to reduce the computation for processing multiple glyph images simultaneously, while does not face performance degradation. To support instruction-tuning of out model, we construct two extensive text logo datasets, which are 5x more larger than the existing public dataset. Except for the geometric annotations (e.g. text masks and character recognition), we also compliment with comprehensive layout descriptions in natural language format, for more effective training to have reasoning ability when dealing with complex layouts and custom user constraints. Experimental studies demonstrate the effectiveness of our proposed model and datasets, when comparing with previous methods in various benchmarks to evaluate geometric aesthetics and human preferences. The code and datasets will be publicly available.
- Abstract(参考訳): テキストロゴのデザインはプロのデザイナーの創造性と専門性に大きく依存している。
しかし、正確なテクスチャの詳細やユーザの制約を考慮する必要があるこの特定のタスクにはほとんど注意が払われていないが、ドキュメント/ポストのレイアウト生成のようなより広範なタスクにのみ注意が払われている。
本稿では,マルチモーダル入力とユーザ制約を統合することで,コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像を同時に処理する際の計算量を削減するために,性能劣化に直面することなく2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
幾何学的アノテーション(例えばテキストマスクや文字認識)を除いて、我々は、複雑なレイアウトやカスタムユーザ制約を扱う際に、より効果的な学習能力を持つために、自然言語形式の包括的レイアウト記述を補完します。
提案したモデルとデータセットの有効性を,幾何的美学と人的嗜好を評価するために,様々なベンチマークで過去の手法と比較した。
コードとデータセットは一般公開される。
関連論文リスト
- PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation [6.855409699832414]
PosterLlamaは、視覚的およびテキスト的に一貫性のあるレイアウトを生成するように設計されたネットワークである。
評価の結果,PosterLlamaは,信頼性とコンテンツ対応レイアウトの生成において,既存の手法よりも優れていることがわかった。
これは、非条件のレイアウト生成、要素条件のレイアウト生成、レイアウトの完了など、非常に汎用性の高いユーザー操作ツールとして機能するなど、非パラレルな範囲の条件をサポートする。
論文 参考訳(メタデータ) (2024-04-01T08:46:35Z) - LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language
Models [84.16541551923221]
本稿では,レイアウト生成をコード生成タスクとして扱うモデルを提案する。
3つの相互接続モジュールからなるCode Instruct Tuning (CIT) アプローチを開発した。
複数のデータセット上で、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-09-18T06:35:10Z) - A Parse-Then-Place Approach for Generating Graphic Layouts from Textual
Descriptions [50.469491454128246]
我々は、図形レイアウト、すなわちテキストからラベルへのレイアウトを作成するためのガイダンスとしてテキストを使用し、設計障壁を低くすることを目的としています。
テキストからラベルへの変換は、テキストからの暗黙的、複合的、不完全な制約を考慮する必要があるため、難しい作業である。
この問題に対処するための2段階のアプローチとして,パース・セイン・プレース(parse-then-place)を提案する。
論文 参考訳(メタデータ) (2023-08-24T10:37:00Z) - LayoutGPT: Compositional Visual Planning and Generation with Large
Language Models [98.81962282674151]
大規模言語モデル(LLM)は、テキスト条件からレイアウトを生成することで視覚的なプランナーとして機能する。
本稿では,スタイルシート言語におけるコンテキスト内視覚的デモンストレーションを構成する手法であるLayoutGPTを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:56:16Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - LAMPRET: Layout-Aware Multimodal PreTraining for Document Understanding [17.179384053140236]
文書レイアウトは構造的および視覚的(例えば。
機械学習モデルでは無視されがちですが、重要な情報です。
ブロックとドキュメント全体をモデル化する新しいレイアウト対応マルチモーダル階層フレームワーク LAMPreT を提案する。
提案したモデルを,テキストブロック充填と画像提案の2つのレイアウト認識タスクで評価する。
論文 参考訳(メタデータ) (2021-04-16T23:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。