論文の概要: From Pixels to Policies: Reinforcing Spatial Reasoning in Language Models for Content-Aware Layout Design
- arxiv url: http://arxiv.org/abs/2602.13912v2
- Date: Tue, 17 Feb 2026 22:24:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 13:51:30.961816
- Title: From Pixels to Policies: Reinforcing Spatial Reasoning in Language Models for Content-Aware Layout Design
- Title(参考訳): ピクセルからポリシーへ:コンテンツ対応レイアウト設計のための言語モデルにおける空間推論の強化
- Authors: Sha Li, Stefano Petrangeli, Yu Shen, Xiang Chen,
- Abstract要約: LaySPAは、コンテンツ対応グラフィックレイアウト設計のための強化学習フレームワークである。
画素レベルでの操作の代わりに、構造化されたテキスト空間環境上でのポリシー学習問題としてレイアウト設計を再構成する。
LaySPAは、解釈可能な推論トレースと構造化レイアウト仕様を含む二重レベル出力を生成する。
- 参考スコア(独自算出の注目度): 21.929198075025187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LaySPA, a reinforcement learning framework that equips large language models (LLMs) with explicit and interpretable spatial reasoning for content-aware graphic layout design. LaySPA addresses two key challenges: LLMs' limited spatial reasoning and the lack of opacity in design decision making. Instead of operating at the pixel level, we reformulate layout design as a policy learning problem over a structured textual spatial environment that explicitly encodes canvas geometry, element attributes, and inter-element relationships. LaySPA produces dual-level outputs comprising interpretable reasoning traces and structured layout specifications, enabling transparent and controllable design decision making. Layout design policy is optimized via a multi-objective spatial critique that decomposes layout quality into geometric validity, relational coherence, and aesthetic consistency, and is trained using relative group optimization to stabilize learning in open-ended design spaces. Experiments demonstrate that LaySPA improves structural validity and visual quality, outperforming larger proprietary LLMs and achieving performance comparable to specialized SOTA layout generators while requiring fewer annotated samples and reduced latency.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)に,コンテンツ認識型グラフィックレイアウト設計のための空間的推論を明示的かつ解釈可能とした強化学習フレームワークであるLaySPAを紹介する。
LaySPAはLLMの限られた空間推論と設計決定における不透明さの欠如という2つの主要な課題に対処する。
我々は,画素レベルでの操作の代わりに,キャンバス幾何学,要素属性,要素間関係を明示的に符号化した構造化テキスト空間環境上でのポリシー学習問題としてレイアウト設計を再構成する。
LaySPAは、解釈可能な推論トレースと構造化レイアウト仕様を含む二重レベル出力を生成し、透過的で制御可能な設計決定を可能にする。
レイアウト設計ポリシーは,レイアウト品質を幾何学的妥当性,リレーショナルコヒーレンス,美的整合性に分解する多目的空間批判を通じて最適化し,相対群最適化を用いて学習を安定化させる。
実験により、LaySPAは構造的妥当性と視覚的品質を改善し、より大きなプロプライエタリなLLMより優れ、特別なSOTAレイアウトジェネレータに匹敵する性能を実現し、注釈付きサンプルを少なくし、レイテンシを低減できることを示した。
関連論文リスト
- Co-Layout: LLM-driven Co-optimization for Interior Layout [8.182031753612875]
本稿では,大規模言語モデル(LLM)とグリッド型整数プログラミングを組み合わせて室内レイアウトと家具配置を協調的に最適化する,自動内装設計のためのフレームワークを提案する。
我々の定式化は、廊下接続、部屋のアクセシビリティ、空間的排他性、ユーザ指定の嗜好など、重要な設計要件を考慮に入れている。
論文 参考訳(メタデータ) (2025-11-16T06:20:55Z) - DisCo-Layout: Disentangling and Coordinating Semantic and Physical Refinement in a Multi-Agent Framework for 3D Indoor Layout Synthesis [76.7196710324494]
3次元屋内レイアウト合成は仮想環境構築に不可欠である。
DisCoは、物理的および意味的な洗練を歪め、調整する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T16:30:37Z) - LLMs as Layout Designers: Enhanced Spatial Reasoning for Content-Aware Layout Generation [27.377286708795506]
LaySPAは、レイアウト設計のための空間的推論機能を備えた大規模言語モデルを強化する強化学習ベースのフレームワークである。
また,LaySPAは構造的に有効かつ視覚的に魅力的なレイアウトの生成を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-09-21T03:02:59Z) - ReLayout: Integrating Relation Reasoning for Content-aware Layout Generation with Multi-modal Large Language Models [7.288330685534444]
我々はReを導入する。ReはRelation-CoTを利用してより合理的で一貫性のあるレイアウトを生成する新しい手法である。
具体的には、要素間の領域、完全性、マージンといった明示的な関係定義を導入することで、レイアウトアノテーションを強化する。
また、3次元にわたるレイアウトプロトタイプ機能を定義し、異なるレイアウトスタイルを定量化するレイアウトプロトタイプサンプルも導入する。
論文 参考訳(メタデータ) (2025-07-08T01:13:43Z) - Illuminating Spaces: Deep Reinforcement Learning and Laser-Wall Partitioning for Architectural Layout Generation [0.0]
本稿では,人間の設計過程を直感的に模倣する手続き的アプローチを提案する。
SLDにRLを効果的に使用するには、望ましい設計ソリューションを生成するための爆発的空間構成法が必要である。
本稿では,空間分割のための空間分割法である「レーザー壁」を紹介した。
論文 参考訳(メタデータ) (2025-02-06T09:35:24Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
本稿では,コンテンツ対応のテキストロゴレイアウトを生成するVLM(Vision-Language Model)ベースのフレームワークを提案する。
本稿では,複数のグリフ画像を同時に処理するための計算コストを削減する2つのモデル手法を提案する。
本モデルでは,既存の公開データセットの5倍の広義のテキストロゴデータセットを2つ構築する。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。