論文の概要: CAL-RAG: Retrieval-Augmented Multi-Agent Generation for Content-Aware Layout Design
- arxiv url: http://arxiv.org/abs/2506.21934v1
- Date: Fri, 27 Jun 2025 06:09:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.103259
- Title: CAL-RAG: Retrieval-Augmented Multi-Agent Generation for Content-Aware Layout Design
- Title(参考訳): CAL-RAG:コンテンツ対応レイアウト設計のための検索強化マルチエージェント生成
- Authors: Najmeh Forouzandehmehr, Reza Yousefi Maragheh, Sriram Kollipara, Kai Zhao, Topojoy Biswas, Evren Korpeoglu, Kannan Achan,
- Abstract要約: CAL-RAGは、コンテンツ対応レイアウト生成のための検索拡張エージェントフレームワークである。
我々は、LangGraphを使ってフレームワークを実装し、セマンティック変数に富んだベンチマークで評価する。
その結果,検索強化とエージェント的多段階推論を組み合わせることで,拡張性,解釈性,高忠実度な解が得られることがわかった。
- 参考スコア(独自算出の注目度): 6.830055289299306
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated content-aware layout generation -- the task of arranging visual elements such as text, logos, and underlays on a background canvas -- remains a fundamental yet under-explored problem in intelligent design systems. While recent advances in deep generative models and large language models (LLMs) have shown promise in structured content generation, most existing approaches lack grounding in contextual design exemplars and fall short in handling semantic alignment and visual coherence. In this work we introduce CAL-RAG, a retrieval-augmented, agentic framework for content-aware layout generation that integrates multimodal retrieval, large language models, and collaborative agentic reasoning. Our system retrieves relevant layout examples from a structured knowledge base and invokes an LLM-based layout recommender to propose structured element placements. A vision-language grader agent evaluates the layout with visual metrics, and a feedback agent provides targeted refinements, enabling iterative improvement. We implement our framework using LangGraph and evaluate it on the PKU PosterLayout dataset, a benchmark rich in semantic and structural variability. CAL-RAG achieves state-of-the-art performance across multiple layout metrics -- including underlay effectiveness, element alignment, and overlap -- substantially outperforming strong baselines such as LayoutPrompter. These results demonstrate that combining retrieval augmentation with agentic multi-step reasoning yields a scalable, interpretable, and high-fidelity solution for automated layout generation.
- Abstract(参考訳): テキスト、ロゴ、アンダーレイなどのビジュアル要素を背景キャンバスに配置するタスクである、コンテンツ認識レイアウトの自動生成は、インテリジェントデザインシステムにおいて、根底から検討されていない問題である。
近年の深層生成モデルと大規模言語モデル(LLM)の進歩は、構造化コンテンツ生成において有望であることを示しているが、既存のアプローチのほとんどは、コンテキスト設計の経験に根ざせず、セマンティックアライメントと視覚的コヒーレンスを扱うのに不足している。
本研究では,マルチモーダル検索,大規模言語モデル,協調的エージェント推論を統合した,コンテンツ対応レイアウト生成のための検索強化エージェントフレームワークであるCAL-RAGを紹介する。
本システムは,構造化知識ベースから関連するレイアウト例を検索し,LLMに基づくレイアウトレコメンデータを起動して,構造化要素配置を提案する。
視覚言語グレーダエージェントは、レイアウトを視覚的メトリクスで評価し、フィードバックエージェントは、目標とする改善を提供し、反復的な改善を可能にする。
我々はLangGraphを使ってフレームワークを実装し、意味的および構造的多様性に富んだベンチマークであるPKU PosterLayoutデータセットで評価する。
CAL-RAGは、アンダーレイの有効性、要素アライメント、オーバーラップを含む、複数のレイアウトメトリクスにわたる最先端のパフォーマンスを達成し、LayoutPrompterのような強力なベースラインを大幅に上回っている。
これらの結果は,検索強化とエージェント的多段階推論を組み合わせることで,自動レイアウト生成のためのスケーラブルで解釈可能な高忠実な解が得られることを示す。
関連論文リスト
- A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は,ユーザのデザイン意図に基づいて編集可能なポスターを生成する自動テキスト投稿システムを開発した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。