論文の概要: Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models
- arxiv url: http://arxiv.org/abs/2404.15271v1
- Date: Tue, 23 Apr 2024 17:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:03:00.236518
- Title: Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models
- Title(参考訳): 指示追従モデルを用いたビジュアルリッチ文書の自動レイアウト計画
- Authors: Wanrong Zhu, Jennifer Healey, Ruiyi Zhang, William Yang Wang, Tong Sun,
- Abstract要約: グラフィックデザインでは、プロでないユーザは、限られたスキルとリソースのために視覚的に魅力的なレイアウトを作成するのに苦労することが多い。
レイアウト計画のための新しいマルチモーダル・インストラクション・フォロー・フレームワークを導入し、視覚的要素をカスタマイズしたレイアウトに簡単に配置できるようにする。
本手法は,非専門職の設計プロセスを単純化するだけでなく,数ショット GPT-4V モデルの性能を上回り,mIoU は Crello で 12% 向上する。
- 参考スコア(独自算出の注目度): 81.6240188672294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in instruction-following models have made user interactions with models more user-friendly and efficient, broadening their applicability. In graphic design, non-professional users often struggle to create visually appealing layouts due to limited skills and resources. In this work, we introduce a novel multimodal instruction-following framework for layout planning, allowing users to easily arrange visual elements into tailored layouts by specifying canvas size and design purpose, such as for book covers, posters, brochures, or menus. We developed three layout reasoning tasks to train the model in understanding and executing layout instructions. Experiments on two benchmarks show that our method not only simplifies the design process for non-professionals but also surpasses the performance of few-shot GPT-4V models, with mIoU higher by 12% on Crello. This progress highlights the potential of multimodal instruction-following models to automate and simplify the design process, providing an approachable solution for a wide range of design tasks on visually-rich documents.
- Abstract(参考訳): 近年,命令追従モデルの進歩により,ユーザフレンドリで効率的なモデルとのインタラクションが向上し,適用性も向上している。
グラフィックデザインでは、プロでないユーザは、限られたスキルとリソースのために視覚的に魅力的なレイアウトを作成するのに苦労することが多い。
本研究では,レイアウト計画のための新しいマルチモーダル・インストラクション・フォロー・フレームワークを導入し,本の表紙やポスター,パンフレット,メニューなど,キャンバスのサイズや設計目的を指定することで,視覚的要素をカスタマイズしたレイアウトに簡単に配置できるようにする。
レイアウト命令の理解と実行をモデルに訓練するための3つのレイアウト推論タスクを開発した。
2つのベンチマーク実験により,本手法は非専門職の設計プロセスを単純化するだけでなく,数発のGPT-4Vモデルの性能を上回り,mIoUはCrelloで12%高い値を示した。
この進歩は、設計プロセスを自動化し、単純化するためのマルチモーダルな命令フォローモデルの可能性を強調し、視覚的にリッチなドキュメントに対する幅広い設計タスクに対するアプローチ可能なソリューションを提供する。
関連論文リスト
- GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - COLE: A Hierarchical Generation Framework for Multi-Layered and Editable Graphic Design [39.809852329070466]
本稿では,これらの課題に対処するために設計された階層型生成フレームワークであるCOLEシステムを紹介する。
このCOLEシステムは、曖昧な意図のプロンプトを高品質な多層グラフィック設計に変換すると同時に、ユーザ入力に基づく柔軟な編集をサポートする。
論文 参考訳(メタデータ) (2023-11-28T17:22:17Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - PLay: Parametrically Conditioned Layout Generation using Latent
Diffusion [18.130461065261354]
本研究では,ベクトル図形空間におけるパラメトリック条件付きレイアウトを生成する条件付き潜時拡散モデルPLayを構築した。
提案手法は,FIDやFD-VGを含む3つのデータセットにおいて,従来よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-01-27T04:22:27Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Learning Aesthetic Layouts via Visual Guidance [7.992550355579791]
視覚的指導のための計算手法を探求し, 楽観的アートとグラフィックデザインの創出を支援する。
私たちは、アートの傑作のデータセットを収集し、最先端のビジョンモデルで視覚的な修正をラベル付けしました。
美術品の視覚的指導テンプレートを教師なしの学習でクラスタ化した。
視覚的指導の原理を高次元モデルに学習・統合し,図形要素の特徴に照らし合わせることができることを示す。
論文 参考訳(メタデータ) (2021-07-13T17:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。