論文の概要: APD-Agents: A Large Language Model-Driven Multi-Agents Collaborative Framework for Automated Page Design
- arxiv url: http://arxiv.org/abs/2511.14101v1
- Date: Tue, 18 Nov 2025 03:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.913256
- Title: APD-Agents: A Large Language Model-Driven Multi-Agents Collaborative Framework for Automated Page Design
- Title(参考訳): APD-Agents: ページ自動設計のための大規模言語モデル駆動多言語協調フレームワーク
- Authors: Xinpeng Chen, Xiaofeng Han, Kaihao Zhang, Guochao Ren, Yujie Wang, Wenhao Cao, Yang Zhou, Jianfeng Lu, Zhenbo Song,
- Abstract要約: アプリケーションページ設計のための大規模言語モデル駆動型マルチエージェントフレームワークであるAPD-agentsを提案する。
本研究は,大規模モデル駆動型マルチエージェントシステムの自動協調機能を活用している。
RICOデータセットの実験結果は、APDエージェントが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 28.89702589792701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layout design is a crucial step in developing mobile app pages. However, crafting satisfactory designs is time-intensive for designers: they need to consider which controls and content to present on the page, and then repeatedly adjust their size, position, and style for better aesthetics and structure. Although many design software can now help to perform these repetitive tasks, extensive training is needed to use them effectively. Moreover, collaborative design across app pages demands extra time to align standards and ensure consistent styling. In this work, we propose APD-agents, a large language model (LLM) driven multi-agent framework for automated page design in mobile applications. Our framework contains OrchestratorAgent, SemanticParserAgent, PrimaryLayoutAgent, TemplateRetrievalAgent, and RecursiveComponentAgent. Upon receiving the user's description of the page, the OrchestratorAgent can dynamically can direct other agents to accomplish users' design task. To be specific, the SemanticParserAgent is responsible for converting users' descriptions of page content into structured data. The PrimaryLayoutAgent can generate an initial coarse-grained layout of this page. The TemplateRetrievalAgent can fetch semantically relevant few-shot examples and enhance the quality of layout generation. Besides, a RecursiveComponentAgent can be used to decide how to recursively generate all the fine-grained sub-elements it contains for each element in the layout. Our work fully leverages the automatic collaboration capabilities of large-model-driven multi-agent systems. Experimental results on the RICO dataset show that our APD-agents achieve state-of-the-art performance.
- Abstract(参考訳): レイアウトデザインはモバイルアプリページの開発において重要なステップである。
デザイナーはページ上にどのコントロールやコンテンツを表示すべきかを考慮し、そのサイズ、位置、スタイルを何度も調整し、美学や構造を改善する必要がある。
多くのデザインソフトウェアは、これらの反復的なタスクを実行するのに役立てることができるが、効果的に使用するには広範なトレーニングが必要である。
さらに、アプリページ間のコラボレーティブデザインは、標準を整合させ、一貫性のあるスタイリングを保証するために余分な時間を必要とします。
本研究では,モバイルアプリケーションにおけるページの自動設計のための大規模言語モデル(LLM)によるマルチエージェントフレームワークであるAPD-agentsを提案する。
フレームワークにはOrchestratorAgent、SemanticParserAgent、PrimaryLayoutAgent、TemplateRetrievalAgent、RecursiveComponentAgentが含まれています。
ユーザのページの説明を受け取ると、OrchestratorAgentは動的に他のエージェントを誘導してユーザのデザインタスクを達成できる。
具体的に言うと、SemanticParserAgentは、ユーザのページ内容の記述を構造化データに変換する役割を担っている。
primaryLayoutAgentは、このページの最初の粗いレイアウトを生成することができる。
TemplateRetrievalAgentはセマンティックないくつかの例をフェッチし、レイアウト生成の品質を高めることができる。
さらに、RecursiveComponentAgentを使用して、レイアウトの各要素に含むすべてのきめ細かいサブ要素を再帰的に生成する方法を決定することができる。
当社の作業は,大規模モデル駆動型マルチエージェントシステムの自動協調機能を完全に活用する。
RICOデータセットによる実験結果から,APDエージェントは最先端の性能を達成できた。
関連論文リスト
- PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - AgentSquare: Automatic LLM Agent Search in Modular Design Space [16.659969168343082]
大規模言語モデル(LLM)は、幅広い複雑なタスクを処理できるエージェントシステムの急速な成長をもたらした。
Modularized LLM Agent Search (MoLAS) という新しい研究課題を紹介した。
論文 参考訳(メタデータ) (2024-10-08T15:52:42Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [57.98933460388985]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - AgentKit: Structured LLM Reasoning with Dynamic Graphs [91.09525140733987]
多機能エージェントのための直感的なLCMプロンプトフレームワーク(AgentKit)を提案する。
AgentKitは、単純な自然言語プロンプトから複雑な"思考プロセス"を明示的に構築するための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-04-17T15:40:45Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - AutoAgents: A Framework for Automatic Agent Generation [27.74332323317923]
AutoAgentsは、さまざまなタスクに応じてAIチームを構築するために、複数の専門エージェントを適応的に生成し、コーディネートする革新的なフレームワークである。
各種ベンチマーク実験により,AutoAgentsは既存のマルチエージェント手法よりも一貫性と正確な解を生成することが示された。
論文 参考訳(メタデータ) (2023-09-29T14:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。