Fugu-MT 論文翻訳(概要): LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models

論文の概要: LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models

arxiv url: http://arxiv.org/abs/2309.09506v1
Date: Mon, 18 Sep 2023 06:35:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 14:49:52.090759
Title: LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models
Title（参考訳）: LayoutNUWA: 大規模言語モデルの隠れたレイアウトエキスパートを明らかにする
Authors: Zecheng Tang, Chenfei Wu, Juntao Li, Nan Duan
Abstract要約: 本稿では,レイアウト生成をコード生成タスクとして扱うモデルを提案する。 3つの相互接続モジュールからなるCode Instruct Tuning (CIT) アプローチを開発した。複数のデータセット上で、最先端のパフォーマンスを実現しています。
参考スコア（独自算出の注目度）: 84.16541551923221
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Graphic layout generation, a growing research field, plays a significant role in user engagement and information perception. Existing methods primarily treat layout generation as a numerical optimization task, focusing on quantitative aspects while overlooking the semantic information of layout, such as the relationship between each layout element. In this paper, we propose LayoutNUWA, the first model that treats layout generation as a code generation task to enhance semantic information and harness the hidden layout expertise of large language models~(LLMs). More concretely, we develop a Code Instruct Tuning (CIT) approach comprising three interconnected modules: 1) the Code Initialization (CI) module quantifies the numerical conditions and initializes them as HTML code with strategically placed masks; 2) the Code Completion (CC) module employs the formatting knowledge of LLMs to fill in the masked portions within the HTML code; 3) the Code Rendering (CR) module transforms the completed code into the final layout output, ensuring a highly interpretable and transparent layout generation procedure that directly maps code to a visualized layout. We attain significant state-of-the-art performance (even over 50\% improvements) on multiple datasets, showcasing the strong capabilities of LayoutNUWA. Our code is available at https://github.com/ProjectNUWA/LayoutNUWA.
Abstract（参考訳）: 成長する研究分野であるグラフィックレイアウト生成は、ユーザのエンゲージメントと情報知覚において重要な役割を果たす。既存の手法は主に、レイアウト生成を数値最適化タスクとして扱い、各レイアウト要素間の関係のようなレイアウトの意味情報を見下ろしながら、定量的な側面に焦点を当てる。本稿では,レイアウト生成をコード生成タスクとして扱う最初のモデルであるLayoutNUWAを提案する。より具体的には、3つの相互接続モジュールからなるCode Instruct Tuning (CIT) アプローチを開発する。 1) Code Initialization (CI)モジュールは,数値条件を定量化し,戦略的に配置されたマスク付きHTMLコードとして初期化する。 2) Code Completion (CC)モジュールは,LLMのフォーマット知識を利用して,HTMLコード内のマスク部分を満たす。 3) Code Rendering (CR)モジュールは、完了したコードを最終的なレイアウト出力に変換し、高度に解釈可能で透過的なレイアウト生成手順を保証する。 LayoutNUWAの強みを示しながら、複数のデータセット上での最先端のパフォーマンス(50倍以上の改善)を実現しました。私たちのコードはhttps://github.com/ProjectNUWA/LayoutNUWAで利用可能です。

関連論文リスト

MLLM-Based UI2Code Automation Guided by UI Layout Information [17.177322441575196]
3つのキーモジュールを含む実世界のWebページイメージからUIコードを生成するMLLMベースの新しいフレームワークを提案する。評価のために、Snap2Codeという350の現実世界のWebサイトを含む新しいベンチマークデータセットを構築しました。
論文参考訳（メタデータ） (2025-06-12T06:04:16Z)
Relation-Rich Visual Document Generator for Visual Information Extraction [12.4941229258054]
本稿では2段階のアプローチでこれらの制限に対処するリレーショナルrIchビジュアルドキュメンテーション・ジェネレータ(RIDGE)を提案する。提案手法は,様々なVIEベンチマークにおける文書理解モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-14T19:19:26Z)
Enhancing Chart-to-Code Generation in Multimodal Large Language Models via Iterative Dual Preference Learning [16.22363384653305]
Chart2Codeは、チャート・ツー・コード生成のための新しい反復的な二重選好学習フレームワークである。 Chart2Codeは、ディストリビューション外のチャート・ツー・コード生成品質を継続的に改善する。我々のフレームワークは、チャート理解における今後の進歩の道を開く。
論文参考訳（メタデータ） (2025-04-03T07:51:20Z)
GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文参考訳（メタデータ） (2024-11-18T10:04:10Z)
ESALE: Enhancing Code-Summary Alignment Learning for Source Code Summarization [21.886950861445122]
コード要約は、与えられたコードスニペットに対して簡潔な自然言語要約を自動的に生成することを目的としている。本稿では,要約に焦点をあてたタスクに基づいて,コード要約を改善する新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-01T03:06:51Z)
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文参考訳（メタデータ） (2024-06-05T03:05:52Z)
LayoutLLM: Layout Instruction Tuning with Large Language Models for Document Understanding [21.916774808384893]
提案手法は,レイアウト対応事前学習とレイアウト対応監視ファインタニングの2つのコンポーネントから構成される。標準ベンチマークの実験では、提案されたLayoutLLMは、文書理解のためにオープンソースの7B LLMs/MLLMを採用する既存の手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2024-04-08T06:40:28Z)
KnowCoder: Coding Structured Knowledge into LLMs for Universal Information Extraction [59.039355258637315]
コード生成によるユニバーサル情報抽出(UIE)を行うためのLarge Language Model(LLM)であるKnowCoderを提案する。 KnowCoderは、異なるスキーマをPythonクラスに一様に変換するコードスタイルのスキーマ表現メソッドを導入した。 KnowCoderには、2フェーズの学習フレームワークがあり、コード事前トレーニングによるスキーマ理解能力と、命令チューニングによるスキーマ追従能力を向上させる。
論文参考訳（メタデータ） (2024-03-12T14:56:34Z)
DocLLM: A layout-aware generative language model for multimodal document understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文参考訳（メタデータ） (2023-12-31T22:37:52Z)
Enhancing Visually-Rich Document Understanding via Layout Structure Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文参考訳（メタデータ） (2023-08-15T13:53:52Z)
ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文参考訳（メタデータ） (2022-10-12T12:59:24Z)
LAMPRET: Layout-Aware Multimodal PreTraining for Document Understanding [17.179384053140236]
文書レイアウトは構造的および視覚的(例えば。機械学習モデルでは無視されがちですが、重要な情報です。ブロックとドキュメント全体をモデル化する新しいレイアウト対応マルチモーダル階層フレームワーク LAMPreT を提案する。提案したモデルを,テキストブロック充填と画像提案の2つのレイアウト認識タスクで評価する。
論文参考訳（メタデータ） (2021-04-16T23:27:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。