論文の概要: ReLayout: Integrating Relation Reasoning for Content-aware Layout Generation with Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2507.05568v1
- Date: Tue, 08 Jul 2025 01:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.467597
- Title: ReLayout: Integrating Relation Reasoning for Content-aware Layout Generation with Multi-modal Large Language Models
- Title(参考訳): ReLayout:マルチモーダル大言語モデルによるコンテンツ対応レイアウト生成のための関係推論の統合
- Authors: Jiaxu Tian, Xuehui Yu, Yaoxing Wang, Pan Wang, Guangqian Guo, Shan Gao,
- Abstract要約: 我々はReを導入する。ReはRelation-CoTを利用してより合理的で一貫性のあるレイアウトを生成する新しい手法である。
具体的には、要素間の領域、完全性、マージンといった明示的な関係定義を導入することで、レイアウトアノテーションを強化する。
また、3次元にわたるレイアウトプロトタイプ機能を定義し、異なるレイアウトスタイルを定量化するレイアウトプロトタイプサンプルも導入する。
- 参考スコア(独自算出の注目度): 7.288330685534444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content-aware layout aims to arrange design elements appropriately on a given canvas to convey information effectively. Recently, the trend for this task has been to leverage large language models (LLMs) to generate layouts automatically, achieving remarkable performance. However, existing LLM-based methods fail to adequately interpret spatial relationships among visual themes and design elements, leading to structural and diverse problems in layout generation. To address this issue, we introduce ReLayout, a novel method that leverages relation-CoT to generate more reasonable and aesthetically coherent layouts by fundamentally originating from design concepts. Specifically, we enhance layout annotations by introducing explicit relation definitions, such as region, salient, and margin between elements, with the goal of decomposing the layout into smaller, structured, and recursive layouts, thereby enabling the generation of more structured layouts. Furthermore, based on these defined relationships, we introduce a layout prototype rebalance sampler, which defines layout prototype features across three dimensions and quantifies distinct layout styles. This sampler addresses uniformity issues in generation that arise from data bias in the prototype distribution balance process. Extensive experimental results verify that ReLayout outperforms baselines and can generate structural and diverse layouts that are more aligned with human aesthetics and more explainable.
- Abstract(参考訳): コンテンツ対応レイアウトは、設計要素を所定のキャンバスに適切に配置し、情報を効果的に伝達することを目的としている。
近年,この課題は大規模言語モデル(LLM)を利用してレイアウトを自動的に生成し,優れた性能を実現する傾向にある。
しかし、既存のLCMベースの手法では、視覚テーマとデザイン要素間の空間的関係を適切に解釈できないため、レイアウト生成における構造的および多様な問題が発生する。
この問題に対処するため,ReLayoutはRelation-CoTを利用して設計概念を基本として,より合理的かつ審美的に整合したレイアウトを生成する新しい手法である。
具体的には、レイアウトをより小さく、構造化され、再帰的なレイアウトに分解することで、より構造化されたレイアウトの生成を可能にする。
さらに,これらの関係に基づいて,3次元にわたるレイアウトプロトタイプ機能を定義し,異なるレイアウトスタイルを定量化するレイアウトプロトタイプリバランス・スライダを導入する。
このサンプルは、プロトタイプ分布バランスプロセスにおけるデータバイアスから生じる世代における均一性の問題に対処する。
大規模な実験結果から、ReLayoutはベースラインよりも優れており、人間の美学とより整合し、より説明しやすい構造的かつ多様なレイアウトを生成することができることが確認された。
関連論文リスト
- CAL-RAG: Retrieval-Augmented Multi-Agent Generation for Content-Aware Layout Design [6.830055289299306]
CAL-RAGは、コンテンツ対応レイアウト生成のための検索拡張エージェントフレームワークである。
我々は、LangGraphを使ってフレームワークを実装し、セマンティック変数に富んだベンチマークで評価する。
その結果,検索強化とエージェント的多段階推論を組み合わせることで,拡張性,解釈性,高忠実度な解が得られることがわかった。
論文 参考訳(メタデータ) (2025-06-27T06:09:56Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - LayoutDiT: Exploring Content-Graphic Balance in Layout Generation with Diffusion Transformer [46.67415676699221]
我々は、高品質で視覚的に魅力的なレイアウトを生成するために、コンテンツとグラフィック機能のバランスをとるフレームワークを導入する。
具体的には、レイアウト生成空間に対するモデルの認識を最適化する適応係数を設計する。
また、視覚領域における画像と幾何学パラメータ領域におけるレイアウトのモダリティ差を橋渡しするために、図形条件であるサリエンシ境界ボックスを導入する。
論文 参考訳(メタデータ) (2024-07-21T17:58:21Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - LayoutDM: Discrete Diffusion Model for Controllable Layout Generation [27.955214767628107]
制御可能なレイアウト生成は、任意の制約で要素境界ボックスの妥当な配置を合成することを目的としている。
本研究では、離散状態空間拡散モデルに基づく単一モデルにおいて、幅広いレイアウト生成タスクを解くことを試みる。
我々のモデルはLayoutDMと呼ばれ、離散表現の構造化レイアウトデータを自然に処理し、初期入力からノイズレスレイアウトを段階的に推測することを学ぶ。
論文 参考訳(メタデータ) (2023-03-14T17:59:47Z) - Constrained Graphic Layout Generation via Latent Optimization [17.05026043385661]
ユーザによって暗黙的に、あるいは明示的に、デザインセマンティクスを柔軟に組み込むことができるグラフィックレイアウトを生成します。
提案手法はトランスフォーマーアーキテクチャに基づく生成的レイアウトモデルに基づいており,レイアウト生成を制約付き最適化問題として定式化している。
実験では,1つのモデルを用いて,制約付きタスクと制約なしタスクの両方において,現実的なレイアウトを生成することができることを示す。
論文 参考訳(メタデータ) (2021-08-02T13:04:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。