論文の概要: Smaller But Better: Unifying Layout Generation with Smaller Large Language Models
- arxiv url: http://arxiv.org/abs/2502.14005v1
- Date: Wed, 19 Feb 2025 10:06:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 17:44:24.837044
- Title: Smaller But Better: Unifying Layout Generation with Smaller Large Language Models
- Title(参考訳): より小さいが改善:より小さな言語モデルでレイアウト生成を統一する
- Authors: Peirong Zhang, Jiaxin Zhang, Jiahuan Cao, Hongliang Li, Lianwen Jin,
- Abstract要約: LGGPT(LGGPT)は、LLMベースの統一レイアウト生成用に設計されたモデルである。
ALIとULRは、過剰なトークンを強制する簡潔な構造を持っている。
本稿では,LGGPTが既存手法に比べて優れた性能を示すことを示す。
- 参考スコア(独自算出の注目度): 33.18391143075568
- License:
- Abstract: We propose LGGPT, an LLM-based model tailored for unified layout generation. First, we propose Arbitrary Layout Instruction (ALI) and Universal Layout Response (ULR) as the uniform I/O template. ALI accommodates arbitrary layout generation task inputs across multiple layout domains, enabling LGGPT to unify both task-generic and domain-generic layout generation hitherto unexplored. Collectively, ALI and ULR boast a succinct structure that forgoes superfluous tokens typically found in existing HTML-based formats, facilitating efficient instruction tuning and boosting unified generation performance. In addition, we propose an Interval Quantization Encoding (IQE) strategy that compresses ALI into a more condensed structure. IQE precisely preserves valid layout clues while eliminating the less informative placeholders, facilitating LGGPT to capture complex and variable layout generation conditions during the unified training process. Experimental results demonstrate that LGGPT achieves superior or on par performance compared to existing methods. Notably, LGGPT strikes a prominent balance between proficiency and efficiency with a compact 1.5B parameter LLM, which beats prior 7B or 175B models even in the most extensive and challenging unified scenario. Furthermore, we underscore the necessity of employing LLMs for unified layout generation and suggest that 1.5B could be an optimal parameter size by comparing LLMs of varying scales. Code is available at https://github.com/NiceRingNode/LGGPT.
- Abstract(参考訳): 統一レイアウト生成に適したLLMモデルLGGPTを提案する。
まず、統一I/OテンプレートとしてArbitrary Layout Instruction (ALI)とUniversal Layout Response (ULR)を提案する。
ALIは、複数のレイアウトドメインにまたがる任意のレイアウト生成タスク入力に対応しており、LGGPTはタスクジェネリックとドメインジェネリックレイアウト生成の両方を未探索に統一することができる。
集合的に言えば、ALIとULRは、既存のHTMLベースのフォーマットで一般的に見られる過剰なトークンを強制する簡潔な構造を持ち、効率的な命令チューニングと統一された生成性能の向上を促進する。
さらに, ALI をより凝縮された構造に圧縮する Interval Quantization Encoding (IQE) 戦略を提案する。
IQEは、情報の少ないプレースホルダーを排除しながら、有効なレイアウトの手がかりを正確に保存し、統一されたトレーニングプロセス中にLGGPTが複雑で可変なレイアウト生成条件をキャプチャするのを容易にする。
実験の結果,LGGPTは既存手法に比べて優れた性能を示した。
特にLGGPTは、より広範囲で挑戦的な統一シナリオにおいても、7Bまたは175Bモデルに勝る1.5Bパラメータ LLM で、習熟性と効率の顕著なバランスを保っている。
さらに,LLMを統一レイアウト生成に活用する必要性を強調し,1.5Bは様々なスケールのLLMを比較することで最適なパラメータサイズであることが示唆された。
コードはhttps://github.com/NiceRingNode/LGGPTで入手できる。
関連論文リスト
- HouseLLM: LLM-Assisted Two-Phase Text-to-Floorplan Generation [4.242755827806053]
本稿では,Large Language Model (LLM) を誘導して初期レイアウトを生成する2段階のテキスト・ツー・フロアプラン生成手法を提案する。
我々は、ユーザテキスト仕様に基づいてLCMを誘導するためにChain-of-Thoughtアプローチを導入し、よりユーザフレンドリで直感的な住宅レイアウト設計を可能にした。
実験結果から,本手法は全指標の最先端性能を実現し,実用的ホームデザインにおける有効性を検証した。
論文 参考訳(メタデータ) (2024-11-19T06:57:45Z) - SpaLLM: Unified Compressive Adaptation of Large Language Models with Sketching [32.4599581528901]
Two-towerアーキテクチャは、事前学習したLLMパラメータをコンパクトな表現に圧縮し、付加的な完全精度アダプタを微調整するために用いられる。
Sketched Adapting of LLMs (Sketched Adapting of LLMs) を提案する。
SpaLLMは事前訓練したLLM重量をルックアップテーブルにスケッチし、これらのテーブルの値を直接微調整する。
論文 参考訳(メタデータ) (2024-10-08T20:58:24Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Adaptable Logical Control for Large Language Models [68.27725600175013]
Ctrl-Gは、推論時にモデル生成のトラクタブルでフレキシブルな制御を容易にする適応可能なフレームワークである。
TULU2-7Bモデルに適用したCtrl-Gは、インタラクティブテキスト編集のタスクにおいて、GPT3.5とGPT4より優れていることを示す。
論文 参考訳(メタデータ) (2024-06-19T23:47:59Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文 参考訳(メタデータ) (2024-01-22T07:58:31Z) - Unifying Layout Generation with a Decoupled Diffusion Model [26.659337441975143]
これは、出版物、文書、ユーザーインターフェース(UI)などのフォーマットされたシーンに対する重厚なグラフィックデザイン作業の負担を軽減するための重要なタスクである。
単一分離拡散モデルでそのような統一を実現するためのレイアウト拡散生成モデル(LDGM)を提案する。
提案するLDGMは,任意の属性に対してスクラッチあるいは条件付きでレイアウトを生成することができる。
論文 参考訳(メタデータ) (2023-03-09T05:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。