論文の概要: Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents
- arxiv url: http://arxiv.org/abs/2502.11357v2
- Date: Wed, 19 Feb 2025 01:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 10:37:18.710433
- Title: Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents
- Title(参考訳): Explorer: マルチモーダルWebエージェントのための探索駆動Webトラジェクトリ合成のスケーリング
- Authors: Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah,
- Abstract要約: 我々は,これまでで最大かつ最も多様な軌跡レベルのデータセットを合成するスケーラブルなレシピを開発した。
このデータセットには、49KのユニークなURL、720Kのスクリーンショット、3300万のWeb要素を含む、94K以上の成功したマルチモーダルWebトラジェクトリが含まれている。
我々は、Mind2Web-Live、Multimodal-Mind2Web、MiniWob++のようなオフラインおよびオンライン両方のWebエージェントベンチマークで強力なパフォーマンスを示します。
- 参考スコア(独自算出の注目度): 16.161877699225986
- License:
- Abstract: Recent success in large multimodal models (LMMs) has sparked promising applications of agents capable of autonomously completing complex web tasks. While open-source LMM agents have made significant advances in offline evaluation benchmarks, their performance still falls substantially short of human-level capabilities in more realistic online settings. A key bottleneck is the lack of diverse and large-scale trajectory-level datasets across various domains, which are expensive to collect. In this paper, we address this challenge by developing a scalable recipe to synthesize the largest and most diverse trajectory-level dataset to date, containing over 94K successful multimodal web trajectories, spanning 49K unique URLs, 720K screenshots, and 33M web elements. In particular, we leverage extensive web exploration and refinement to obtain diverse task intents. The average cost is 28 cents per successful trajectory, making it affordable to a wide range of users in the community. Leveraging this dataset, we train Explorer, a multimodal web agent, and demonstrate strong performance on both offline and online web agent benchmarks such as Mind2Web-Live, Multimodal-Mind2Web, and MiniWob++. Additionally, our experiments highlight data scaling as a key driver for improving web agent capabilities. We hope this study makes state-of-the-art LMM-based agent research at a larger scale more accessible.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の成功は、複雑なWebタスクを自律的に完了できるエージェントの有望な応用を引き起こしている。
オープンソースのLMMエージェントは、オフライン評価ベンチマークにおいて大きな進歩を遂げているが、そのパフォーマンスは、よりリアルなオンライン設定における人間レベルの能力に大きく劣っている。
重要なボトルネックは、さまざまなドメインにまたがる多様で大規模なトラジェクトリレベルのデータセットが欠如していることである。
本稿では,これまでに最大かつ最も多様なトラジェクトリレベルのデータセットを合成するスケーラブルなレシピを開発し,94K以上の成功したマルチモーダルWebトラジェクトリ,49KのユニークなURL,720Kのスクリーンショット,3300万のWeb要素を含む課題に対処する。
特に、広範囲にわたるWeb探索と改良を活用して、多様なタスクインテントを得る。
平均的なコストは、成功軌道当たり28セントであり、コミュニティ内の幅広いユーザーにとって手頃な価格である。
このデータセットを活用して、マルチモーダルWebエージェントであるExplorerをトレーニングし、Mind2Web-Live、Multimodal-Mind2Web、MiniWob++といったオフラインおよびオンラインWebエージェントベンチマークで強力なパフォーマンスを示す。
さらに、我々の実験では、Webエージェント機能を改善するための重要な要因として、データのスケーリングを強調しています。
この研究によって、より大規模で最先端のLMMベースのエージェント研究がよりアクセスしやすくなることを願っている。
関連論文リスト
- WebWalker: Benchmarking LLMs in Web Traversal [64.48425443951749]
WebWalkerQAは,LLMがWebトラバースを実現する能力を評価するためのベンチマークである。
本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-01-13T18:58:07Z) - OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization [66.22117723598872]
マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。
まず、基本モデルを模倣学習で訓練し、基礎能力を得る。
次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-25T15:01:27Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - WebQuest: A Benchmark for Multimodal QA on Web Page Sequences [10.008284460456107]
WebQuestは、複数のWebページにわたる推論を必要とする、複数ページの質問回答データセットである。
本データセットは,多くのWebページから情報抽出,マルチモーダル検索,および情報の合成を評価する。
我々は、GPT-4V、Gemini Flash、Claude 3、InstructBLIP、PaliGemmaなどのオープンソースモデルなど、主要なプロプライエタリなマルチモーダルモデルを評価します。
論文 参考訳(メタデータ) (2024-09-06T18:44:25Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - MMInA: Benchmarking Multihop Multimodal Internet Agents [36.173995299002]
本稿では,マルチホップとマルチモーダルのベンチマークであるMMInAについて述べる。
私たちのデータには、ショッピングや旅行など、さまざまな分野をカバーする1050の人書きタスクが含まれています。
提案手法は,エージェントのシングルホップとマルチホップのWebブラウジング能力を大きく改善した。
論文 参考訳(メタデータ) (2024-04-15T17:59:50Z) - VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.60866817774641]
MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。
Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。
benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2024-04-09T02:29:39Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。