論文の概要: LayoutPrompter: Awaken the Design Ability of Large Language Models
- arxiv url: http://arxiv.org/abs/2311.06495v1
- Date: Sat, 11 Nov 2023 07:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 18:21:53.777981
- Title: LayoutPrompter: Awaken the Design Ability of Large Language Models
- Title(参考訳): LayoutPrompter: 大規模言語モデルの設計能力の覚醒
- Authors: Jiawei Lin, Jiaqi Guo, Shizhao Sun, Zijiang James Yang, Jian-Guang
Lou, Dongmei Zhang
- Abstract要約: ユーザの制約を自動的に高品質なレイアウトにマッピングする条件付きグラフィックレイアウト生成が,今日,注目を集めている。
本稿では,LyoutPrompterを提案する。LyoutPrompterは大規模言語モデル(LLM)を利用して,テキスト内学習によって上記の問題に対処する。
layoutPrompterは、入力出力シリアライゼーション、動的例選択、レイアウトランキングという3つの重要なコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 46.6946399858818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional graphic layout generation, which automatically maps user
constraints to high-quality layouts, has attracted widespread attention today.
Although recent works have achieved promising performance, the lack of
versatility and data efficiency hinders their practical applications. In this
work, we propose LayoutPrompter, which leverages large language models (LLMs)
to address the above problems through in-context learning. LayoutPrompter is
made up of three key components, namely input-output serialization, dynamic
exemplar selection and layout ranking. Specifically, the input-output
serialization component meticulously designs the input and output formats for
each layout generation task. Dynamic exemplar selection is responsible for
selecting the most helpful prompting exemplars for a given input. And a layout
ranker is used to pick the highest quality layout from multiple outputs of
LLMs. We conduct experiments on all existing layout generation tasks using four
public datasets. Despite the simplicity of our approach, experimental results
show that LayoutPrompter can compete with or even outperform state-of-the-art
approaches on these tasks without any model training or fine-tuning. This
demonstrates the effectiveness of this versatile and training-free approach. In
addition, the ablation studies show that LayoutPrompter is significantly
superior to the training-based baseline in a low-data regime, further
indicating the data efficiency of LayoutPrompter. Our project is available at
https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.
- Abstract(参考訳): ユーザの制約を高品質なレイアウトに自動マッピングする条件付きグラフィックレイアウト生成が,今日では広く注目を集めている。
最近の研究は有望な性能を達成しているが、汎用性とデータ効率の欠如は実用的応用を妨げる。
そこで本研究では,大規模言語モデル(LLM)を活用したLayoutPrompterを提案する。
LayoutPrompterは、入力出力シリアライゼーション、動的指数選択、レイアウトランキングという3つの重要なコンポーネントで構成されている。
具体的には、入力出力シリアライゼーションコンポーネントは、各レイアウト生成タスクの入力および出力フォーマットを慎重に設計する。
動的例題選択は、与えられた入力に対して最も有用な例題を選択する責任がある。
LLMの複数の出力から最高品質のレイアウトを選択するためにレイアウトローダが使用される。
4つの公開データセットを用いて既存のレイアウト生成タスクをすべて実験する。
このアプローチの単純さにもかかわらず、実験結果から、LayoutPrompterはモデルトレーニングや微調整なしに、これらのタスクにおける最先端のアプローチと競合したり、性能を上回ります。
これは、この多用途でトレーニングフリーなアプローチの有効性を示しています。
さらに,レイアウトプロンプターは低データ状態におけるトレーニングベースベースラインよりも有意に優れており,レイアウトプロンプターのデータ効率も向上している。
私たちのプロジェクトはhttps://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompterで利用可能です。
関連論文リスト
- Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - Large Language Models Understand Layout [6.732578061359833]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにおいて異常な能力を示す。
テキスト理解能力以外にも,空間マーカーで表されるテキストレイアウトをLLMで処理できることが示されている。
レイアウト理解能力は,視覚的質問応答(VQA)システム構築に有用であることを示す。
論文 参考訳(メタデータ) (2024-07-08T09:03:12Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。