論文の概要: MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation
- arxiv url: http://arxiv.org/abs/2604.15309v1
- Date: Thu, 16 Apr 2026 17:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:32.05081
- Title: MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation
- Title(参考訳): MM-WebAgent:Webページ生成のための階層型マルチモーダルWebエージェント
- Authors: Yan Li, Zezi Zeng, Yifan Yang, Yuqing Yang, Ning Liao, Weiwei Guo, Lili Qiu, Mingxi Cheng, Qi Dai, Zhendong Wang, Zhengyuan Yang, Xue Yang, Ji Li, Lijuan Wang, Chong Luo,
- Abstract要約: MM-WebAgentはマルチモーダルWebページ生成のための階層型エージェントフレームワークである。
AIGCベースの要素生成を階層的計画と反復的自己回帰を通じてコーディネートする。
- 参考スコア(独自算出の注目度): 99.19991374550729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of Artificial Intelligence Generated Content (AIGC) tools enables images, videos, and visualizations to be created on demand for webpage design, offering a flexible and increasingly adopted paradigm for modern UI/UX. However, directly integrating such tools into automated webpage generation often leads to style inconsistency and poor global coherence, as elements are generated in isolation. We propose MM-WebAgent, a hierarchical agentic framework for multimodal webpage generation that coordinates AIGC-based element generation through hierarchical planning and iterative self-reflection. MM-WebAgent jointly optimizes global layout, local multimodal content, and their integration, producing coherent and visually consistent webpages. We further introduce a benchmark for multimodal webpage generation and a multi-level evaluation protocol for systematic assessment. Experiments demonstrate that MM-WebAgent outperforms code-generation and agent-based baselines, especially on multimodal element generation and integration. Code & Data: https://aka.ms/mm-webagent.
- Abstract(参考訳): AIGC(Artificial Intelligence Generated Content)ツールの急速な進歩により、画像、ビデオ、視覚化がWebページデザインの需要に応じて作成できるようになる。
しかし、このようなツールを自動Webページ生成に直接統合すると、要素が独立して生成されるため、スタイルの不整合とグローバルな一貫性が低下することが多い。
マルチモーダルWebページ生成のための階層型エージェントフレームワークであるMM-WebAgentを提案する。
MM-WebAgentはグローバルなレイアウト、ローカルなマルチモーダルコンテンツ、それらの統合を共同で最適化し、一貫性と視覚的に一貫したWebページを生成する。
さらに,マルチモーダルWebページ生成のためのベンチマークと,システム評価のためのマルチレベル評価プロトコルを導入する。
MM-WebAgentは、特にマルチモーダル要素の生成と統合において、コード生成およびエージェントベースのベースラインよりも優れていることを示す実験である。
コードとデータ:https://aka.ms/mm-webagent.com
関連論文リスト
- Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification [27.677130026020006]
Vision2Webは、静的UIからコード生成からフルスタック開発まで、ビジュアルWebサイト開発のための階層的なベンチマークである。
ベンチマークには16のカテゴリで合計193のタスクが含まれており、918のプロトタイプイメージと1,255のテストケースが含まれている。
我々は、異なるコーディングエージェントフレームワークでインスタンス化された複数のビジュアル言語モデルを評価し、すべてのタスクレベルでの大幅なパフォーマンスギャップを明らかにした。
論文 参考訳(メタデータ) (2026-03-27T17:50:45Z) - APD-Agents: A Large Language Model-Driven Multi-Agents Collaborative Framework for Automated Page Design [28.89702589792701]
アプリケーションページ設計のための大規模言語モデル駆動型マルチエージェントフレームワークであるAPD-agentsを提案する。
本研究は,大規模モデル駆動型マルチエージェントシステムの自動協調機能を活用している。
RICOデータセットの実験結果は、APDエージェントが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-11-18T03:39:26Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。