論文の概要: Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models
- arxiv url: http://arxiv.org/abs/2404.15271v1
- Date: Tue, 23 Apr 2024 17:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:03:00.236518
- Title: Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models
- Title(参考訳): 指示追従モデルを用いたビジュアルリッチ文書の自動レイアウト計画
- Authors: Wanrong Zhu, Jennifer Healey, Ruiyi Zhang, William Yang Wang, Tong Sun,
- Abstract要約: グラフィックデザインでは、プロでないユーザは、限られたスキルとリソースのために視覚的に魅力的なレイアウトを作成するのに苦労することが多い。
レイアウト計画のための新しいマルチモーダル・インストラクション・フォロー・フレームワークを導入し、視覚的要素をカスタマイズしたレイアウトに簡単に配置できるようにする。
本手法は,非専門職の設計プロセスを単純化するだけでなく,数ショット GPT-4V モデルの性能を上回り,mIoU は Crello で 12% 向上する。
- 参考スコア(独自算出の注目度): 81.6240188672294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in instruction-following models have made user interactions with models more user-friendly and efficient, broadening their applicability. In graphic design, non-professional users often struggle to create visually appealing layouts due to limited skills and resources. In this work, we introduce a novel multimodal instruction-following framework for layout planning, allowing users to easily arrange visual elements into tailored layouts by specifying canvas size and design purpose, such as for book covers, posters, brochures, or menus. We developed three layout reasoning tasks to train the model in understanding and executing layout instructions. Experiments on two benchmarks show that our method not only simplifies the design process for non-professionals but also surpasses the performance of few-shot GPT-4V models, with mIoU higher by 12% on Crello. This progress highlights the potential of multimodal instruction-following models to automate and simplify the design process, providing an approachable solution for a wide range of design tasks on visually-rich documents.
- Abstract(参考訳): 近年,命令追従モデルの進歩により,ユーザフレンドリで効率的なモデルとのインタラクションが向上し,適用性も向上している。
グラフィックデザインでは、プロでないユーザは、限られたスキルとリソースのために視覚的に魅力的なレイアウトを作成するのに苦労することが多い。
本研究では,レイアウト計画のための新しいマルチモーダル・インストラクション・フォロー・フレームワークを導入し,本の表紙やポスター,パンフレット,メニューなど,キャンバスのサイズや設計目的を指定することで,視覚的要素をカスタマイズしたレイアウトに簡単に配置できるようにする。
レイアウト命令の理解と実行をモデルに訓練するための3つのレイアウト推論タスクを開発した。
2つのベンチマーク実験により,本手法は非専門職の設計プロセスを単純化するだけでなく,数発のGPT-4Vモデルの性能を上回り,mIoUはCrelloで12%高い値を示した。
この進歩は、設計プロセスを自動化し、単純化するためのマルチモーダルな命令フォローモデルの可能性を強調し、視覚的にリッチなドキュメントに対する幅広い設計タスクに対するアプローチ可能なソリューションを提供する。
関連論文リスト
- Visual Instruction Tuning towards General-Purpose Multimodal Model: A
Survey [59.95153883166705]
従来のコンピュータビジョンは、モデルアーキテクチャで暗黙的に設計されたタスク命令を持つ専用モデルによって、個々のタスクを独立して解決する。
近年,視覚インストラクション・チューニング (VIT) の研究が盛んに行われている。
本研究の目的は,(1)コンピュータビジョンタスクのパラダイムとVIT開発を提示する背景,(2)一般的に使用されるネットワークアーキテクチャ,視覚的命令チューニングフレームワークと目的を導入したVITの基礎,および,設定とタスクの評価,(3)視覚的命令チューニングと評価において一般的に使用されるデータセットの体系的レビューを提供することである。
論文 参考訳(メタデータ) (2023-12-27T14:54:37Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - PLay: Parametrically Conditioned Layout Generation using Latent
Diffusion [18.130461065261354]
本研究では,ベクトル図形空間におけるパラメトリック条件付きレイアウトを生成する条件付き潜時拡散モデルPLayを構築した。
提案手法は,FIDやFD-VGを含む3つのデータセットにおいて,従来よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-01-27T04:22:27Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [81.5482196644596]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Efficient Automatic Machine Learning via Design Graphs [72.85976749396745]
最適なモデル設計を探索する効率的なサンプルベース手法であるFALCONを提案する。
FALCONは,1)グラフニューラルネットワーク(GNN)を介してデザイングラフ上でメッセージパッシングを行うタスク非依存モジュール,2)既知のモデル性能情報のラベル伝搬を行うタスク固有モジュールを特徴とする。
FALCONは,30個の探索ノードのみを用いて,各タスクに対して良好な性能を持つ設計を効率的に得ることを実証的に示す。
論文 参考訳(メタデータ) (2022-10-21T21:25:59Z) - The Layout Generation Algorithm of Graphic Design Based on
Transformer-CVAE [8.052709336750823]
本稿では,トランスフォーマーモデルと条件変分オートエンコーダ(CVAE)をグラフィックデザインレイアウト生成タスクに実装した。
これはLayoutT-CVAEと呼ばれるエンドツーエンドのグラフィックデザインレイアウト生成モデルを提案した。
既存の最先端モデルと比較して、当社が生成したレイアウトは、多くのメトリクスでより良く機能します。
論文 参考訳(メタデータ) (2021-10-08T13:36:02Z) - Learning Aesthetic Layouts via Visual Guidance [7.992550355579791]
視覚的指導のための計算手法を探求し, 楽観的アートとグラフィックデザインの創出を支援する。
私たちは、アートの傑作のデータセットを収集し、最先端のビジョンモデルで視覚的な修正をラベル付けしました。
美術品の視覚的指導テンプレートを教師なしの学習でクラスタ化した。
視覚的指導の原理を高次元モデルに学習・統合し,図形要素の特徴に照らし合わせることができることを示す。
論文 参考訳(メタデータ) (2021-07-13T17:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。