論文の概要: LLMs as Layout Designers: A Spatial Reasoning Perspective
- arxiv url: http://arxiv.org/abs/2509.16891v1
- Date: Sun, 21 Sep 2025 03:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.023468
- Title: LLMs as Layout Designers: A Spatial Reasoning Perspective
- Title(参考訳): レイアウトデザイナとしてのLCM:空間推論の視点から
- Authors: Sha Li,
- Abstract要約: LaySPAは、拡張学習ベースのフレームワークで、空間的推論機能を備えた大規模言語モデルを拡張している。
我々は,LaySPAが構造的に健全で視覚的に魅力的なレイアウトを生成し,汎用LLMよりも優れた性能を示すことを示す。
- 参考スコア(独自算出の注目度): 15.57715605958775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have demonstrated impressive reasoning and planning abilities in textual domains and can effectively follow instructions for complex tasks, their capacity for spatial understanding and reasoning remains limited. Such capabilities, however, are critical for applications like content-aware graphic layout design, which demands precise placement, alignment, and structural organization of multiple elements within constrained visual spaces. To address this gap, we propose LaySPA, a reinforcement learning-based framework that augments LLM agents with explicit spatial reasoning capabilities. LaySPA leverages hybrid reward signals that capture geometric validity, structural fidelity, and visual quality, enabling agents to model inter-element relationships, navigate the canvas, and optimize spatial arrangements. Through iterative self-exploration and adaptive policy optimization, LaySPA produces both interpretable reasoning traces and structured layouts. Experimental results demonstrate that LaySPA generates structurally sound and visually appealing layouts, outperforming larger general-purpose LLMs and achieving results on par with state-of-the-art specialized layout models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト領域における印象的な推論と計画能力を示し、複雑なタスクの指示を効果的に追従できるが、空間的理解と推論の能力は依然として限られている。
しかし、このような機能は、制約された視覚空間内の複数の要素の正確な配置、アライメント、構造的構造を必要とするコンテンツ対応グラフィックレイアウト設計のようなアプリケーションにとって重要である。
このギャップに対処するために,LLMエージェントを空間的推論能力で拡張する強化学習ベースのフレームワークであるLaySPAを提案する。
LaySPAは、幾何学的妥当性、構造的忠実度、視覚的品質を捉えるハイブリッド報酬信号を活用し、エージェントは要素間の関係をモデル化し、キャンバスをナビゲートし、空間配置を最適化することができる。
反復的な自己探索と適応的なポリシー最適化により、LaySPAは解釈可能な推論トレースと構造化レイアウトの両方を生成する。
実験により、LaySPAは構造的に健全で視覚的に魅力的なレイアウトを生成し、より大きな汎用LCMよりも優れ、最先端の特殊レイアウトモデルと同等の結果が得られることが示された。
関連論文リスト
- Inpainting-Guided Policy Optimization for Diffusion Large Language Models [67.97530437998117]
自己回帰型LLMの代替として,マスケッド拡散大言語モデル (dLLM) が登場している。
本稿では,dLLMに対するRLアルゴリズムの設計について検討する。
論文 参考訳(メタデータ) (2025-09-12T16:44:31Z) - Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture [16.15618237704827]
データと建築の両面から空間的理解を体系的に分析する。
データの観点からは、トレーニングデータが増加するにつれて空間理解の性能は急速に収束する。
アーキテクチャの観点からは、空間的理解は言語モデルよりも視覚エンコーダ内の位置エンコーダに大きく依存していることが分かる。
論文 参考訳(メタデータ) (2025-09-02T14:22:43Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - FlairGPT: Repurposing LLMs for Interior Designs [29.903931425159925]
大規模言語モデル (LLM) が内部設計に直接活用できるかどうかを検討する。
LLMを体系的に探索することにより、関連する制約とともにオブジェクトのリストを確実に生成できる。
この情報を設計レイアウトグラフに変換し、オフザシェルフ制約最適化設定を用いて解決する。
論文 参考訳(メタデータ) (2025-01-08T18:01:49Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。