Fugu-MT 論文翻訳(概要): Smaller But Better: Unifying Layout Generation with Smaller Large Language Models

論文の概要: Smaller But Better: Unifying Layout Generation with Smaller Large Language Models

arxiv url: http://arxiv.org/abs/2502.14005v1
Date: Wed, 19 Feb 2025 10:06:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.357811
Title: Smaller But Better: Unifying Layout Generation with Smaller Large Language Models
Title（参考訳）: より小さいが改善:より小さな言語モデルでレイアウト生成を統一する
Authors: Peirong Zhang, Jiaxin Zhang, Jiahuan Cao, Hongliang Li, Lianwen Jin,
Abstract要約: LGGPT(LGGPT)は、LLMベースの統一レイアウト生成用に設計されたモデルである。 ALIとULRは、過剰なトークンを強制する簡潔な構造を持っている。本稿では,LGGPTが既存手法に比べて優れた性能を示すことを示す。
参考スコア（独自算出の注目度）: 33.18391143075568
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We propose LGGPT, an LLM-based model tailored for unified layout generation. First, we propose Arbitrary Layout Instruction (ALI) and Universal Layout Response (ULR) as the uniform I/O template. ALI accommodates arbitrary layout generation task inputs across multiple layout domains, enabling LGGPT to unify both task-generic and domain-generic layout generation hitherto unexplored. Collectively, ALI and ULR boast a succinct structure that forgoes superfluous tokens typically found in existing HTML-based formats, facilitating efficient instruction tuning and boosting unified generation performance. In addition, we propose an Interval Quantization Encoding (IQE) strategy that compresses ALI into a more condensed structure. IQE precisely preserves valid layout clues while eliminating the less informative placeholders, facilitating LGGPT to capture complex and variable layout generation conditions during the unified training process. Experimental results demonstrate that LGGPT achieves superior or on par performance compared to existing methods. Notably, LGGPT strikes a prominent balance between proficiency and efficiency with a compact 1.5B parameter LLM, which beats prior 7B or 175B models even in the most extensive and challenging unified scenario. Furthermore, we underscore the necessity of employing LLMs for unified layout generation and suggest that 1.5B could be an optimal parameter size by comparing LLMs of varying scales. Code is available at https://github.com/NiceRingNode/LGGPT.
Abstract（参考訳）: 統一レイアウト生成に適したLLMモデルLGGPTを提案する。まず、統一I/OテンプレートとしてArbitrary Layout Instruction (ALI)とUniversal Layout Response (ULR)を提案する。 ALIは、複数のレイアウトドメインにまたがる任意のレイアウト生成タスク入力に対応しており、LGGPTはタスクジェネリックとドメインジェネリックレイアウト生成の両方を未探索に統一することができる。集合的に言えば、ALIとULRは、既存のHTMLベースのフォーマットで一般的に見られる過剰なトークンを強制する簡潔な構造を持ち、効率的な命令チューニングと統一された生成性能の向上を促進する。さらに, ALI をより凝縮された構造に圧縮する Interval Quantization Encoding (IQE) 戦略を提案する。 IQEは、情報の少ないプレースホルダーを排除しながら、有効なレイアウトの手がかりを正確に保存し、統一されたトレーニングプロセス中にLGGPTが複雑で可変なレイアウト生成条件をキャプチャするのを容易にする。実験の結果,LGGPTは既存手法に比べて優れた性能を示した。特にLGGPTは、より広範囲で挑戦的な統一シナリオにおいても、7Bまたは175Bモデルに勝る1.5Bパラメータ LLM で、習熟性と効率の顕著なバランスを保っている。さらに,LLMを統一レイアウト生成に活用する必要性を強調し,1.5Bは様々なスケールのLLMを比較することで最適なパラメータサイズであることが示唆された。コードはhttps://github.com/NiceRingNode/LGGPTで入手できる。

関連論文リスト

Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-05-12T12:38:20Z)
LayoutCoT: Unleashing the Deep Reasoning Potential of Large Language Models for Layout Generation [12.616508576956136]
条件付きレイアウト生成は、ユーザが定義した制約から視覚的に魅力的でセマンティックに一貫性のあるレイアウトを自動的に生成することを目的としている。本稿では,Large Language Models (LLMs) の推論能力を活用する新しい手法として,検索型拡張生成(RAG) とChain-of-Thought (CoT) 技術の組み合わせを提案する。我々は3つの条件付きレイアウト生成タスクにまたがる5つの公開データセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-04-15T03:12:01Z)
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。 MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-27T00:59:14Z)
HouseLLM: LLM-Assisted Two-Phase Text-to-Floorplan Generation [4.242755827806053]
本稿では,Large Language Model (LLM) を誘導して初期レイアウトを生成する2段階のテキスト・ツー・フロアプラン生成手法を提案する。我々は、ユーザテキスト仕様に基づいてLCMを誘導するためにChain-of-Thoughtアプローチを導入し、よりユーザフレンドリで直感的な住宅レイアウト設計を可能にした。実験結果から,本手法は全指標の最先端性能を実現し,実用的ホームデザインにおける有効性を検証した。
論文参考訳（メタデータ） (2024-11-19T06:57:45Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Retrieval-augmented code completion for local projects using large language models [0.0]
我々は、オープンソースのPythonファイル上に、生成型GPT-2と検索適応型RETROの2つのオープントランスフォーマーベースモデルをトレーニングする。 In-context search-augmented generation (RAG)により,トークンのJaccard類似性を用いてコードスニペットを検索するモデルの性能を改善する。実験結果から、In-context RAGはコード補完ベースラインを26%以上改善し、RETROは同様のサイズのGPT-2ベースラインを12%改善した。
論文参考訳（メタデータ） (2024-08-09T12:26:57Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
Adaptable Logical Control for Large Language Models [68.27725600175013]
Ctrl-Gは、推論時にモデル生成のトラクタブルでフレキシブルな制御を容易にする適応可能なフレームワークである。 TULU2-7Bモデルに適用したCtrl-Gは、インタラクティブテキスト編集のタスクにおいて、GPT3.5とGPT4より優れていることを示す。
論文参考訳（メタデータ） (2024-06-19T23:47:59Z)
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文参考訳（メタデータ） (2024-06-05T03:05:52Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文参考訳（メタデータ） (2024-01-22T07:58:31Z)
Unifying Layout Generation with a Decoupled Diffusion Model [26.659337441975143]
これは、出版物、文書、ユーザーインターフェース(UI)などのフォーマットされたシーンに対する重厚なグラフィックデザイン作業の負担を軽減するための重要なタスクである。単一分離拡散モデルでそのような統一を実現するためのレイアウト拡散生成モデル(LDGM)を提案する。提案するLDGMは,任意の属性に対してスクラッチあるいは条件付きでレイアウトを生成することができる。
論文参考訳（メタデータ） (2023-03-09T05:53:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。