論文の概要: LLMs as Layout Designers: Enhanced Spatial Reasoning for Content-Aware Layout Generation
- arxiv url: http://arxiv.org/abs/2509.16891v2
- Date: Mon, 03 Nov 2025 23:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 20:56:29.015364
- Title: LLMs as Layout Designers: Enhanced Spatial Reasoning for Content-Aware Layout Generation
- Title(参考訳): レイアウトデザイナとしてのLCM:コンテンツ対応レイアウト生成のための空間推論の強化
- Authors: Sha Li, Stefano Petrangeli, Yu Shen, Xiang Chen, Naren Ramakrishnan,
- Abstract要約: LaySPAは、レイアウト設計のための空間的推論機能を備えた大規模言語モデルを強化する強化学習ベースのフレームワークである。
また,LaySPAは構造的に有効かつ視覚的に魅力的なレイアウトの生成を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 27.377286708795506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have demonstrated impressive reasoning and planning abilities in textual domains and can effectively follow instructions for complex tasks, their ability to understand and manipulate spatial relationships remains limited. Such capabilities are crucial for content-aware graphic layout design, where the goal is to arrange heterogeneous elements onto a canvas so that final design remains visually balanced and structurally feasible. This problem requires precise coordination of placement, alignment, and structural organization of multiple elements within a constrained visual space. To address this limitation, we introduce LaySPA, a reinforcement learning-based framework that augments LLM-based agents with explicit spatial reasoning capabilities for layout design. LaySPA employs hybrid reward signals that jointly capture geometric constraints, structural fidelity, and visual quality, enabling agents to navigate the canvas, model inter-element relationships, and optimize spatial arrangements. Through group-relative policy optimization, the agent generates content-aware layouts that reflect salient regions, respect spatial constraints, and produces an interpretable reasoning trace explaining placement decisions and a structured layout specification. Experimental results show that LaySPA substantially improves the generation of structurally valid and visually appealing layouts, outperforming larger general-purpose LLMs and achieving performance comparable to state-of-the-art specialized layout models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト領域における印象的な推論と計画能力を示し、複雑なタスクの指示を効果的に追従できるが、空間的関係を理解し、操作する能力は限られている。
このような機能は、不均質な要素をキャンバスに配置し、最終的な設計が視覚的にバランスを保ち、構造的にも実現可能であることを目標とする、コンテンツ対応のグラフィックレイアウト設計において不可欠である。
この問題は、制約された視覚空間内の複数の要素の配置、アライメント、構造的構造を正確に調整する必要がある。
この制限に対処するため、レイアウト設計のための空間的推論機能を備えたLLMベースのエージェントを増強する強化学習ベースのフレームワークであるLaySPAを紹介した。
LaySPAは、幾何学的制約、構造的忠実さ、視覚的品質を共同で捉え、エージェントがキャンバスをナビゲートし、要素間の関係をモデル化し、空間配置を最適化するハイブリッド報酬信号を使用する。
グループ相対的なポリシー最適化を通じて、適切な領域を反映し、空間的制約を尊重するコンテンツ認識レイアウトを生成し、配置決定と構造化レイアウト仕様を説明する解釈可能な推論トレースを生成する。
実験結果から,LaySPAは構造的に有効かつ視覚的に魅力的なレイアウトの生成を大幅に改善し,汎用LLMよりも優れ,最先端の特殊レイアウトモデルに匹敵する性能を実現していることがわかった。
関連論文リスト
- Inpainting-Guided Policy Optimization for Diffusion Large Language Models [67.97530437998117]
自己回帰型LLMの代替として,マスケッド拡散大言語モデル (dLLM) が登場している。
本稿では,dLLMに対するRLアルゴリズムの設計について検討する。
論文 参考訳(メタデータ) (2025-09-12T16:44:31Z) - Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture [16.15618237704827]
データと建築の両面から空間的理解を体系的に分析する。
データの観点からは、トレーニングデータが増加するにつれて空間理解の性能は急速に収束する。
アーキテクチャの観点からは、空間的理解は言語モデルよりも視覚エンコーダ内の位置エンコーダに大きく依存していることが分かる。
論文 参考訳(メタデータ) (2025-09-02T14:22:43Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - FlairGPT: Repurposing LLMs for Interior Designs [29.903931425159925]
大規模言語モデル (LLM) が内部設計に直接活用できるかどうかを検討する。
LLMを体系的に探索することにより、関連する制約とともにオブジェクトのリストを確実に生成できる。
この情報を設計レイアウトグラフに変換し、オフザシェルフ制約最適化設定を用いて解決する。
論文 参考訳(メタデータ) (2025-01-08T18:01:49Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。