論文の概要: WebVoyager: Building an End-to-End Web Agent with Large Multimodal
Models
- arxiv url: http://arxiv.org/abs/2401.13919v2
- Date: Sun, 28 Jan 2024 07:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 11:41:27.354966
- Title: WebVoyager: Building an End-to-End Web Agent with Large Multimodal
Models
- Title(参考訳): WebVoyager: 大規模マルチモーダルモデルによるエンドツーエンドWebエージェントの構築
- Authors: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming
Zhang, Zhenzhong Lan, Dong Yu
- Abstract要約: 既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
オープンなWebエージェントタスクの自動評価の課題に対処するための,Webエージェントのための新しい評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 67.9935966375389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of large language models (LLMs) leads to a new era marked by
the development of autonomous applications in the real world, which drives
innovation in the creation of advanced web-based agents. Existing web agents
typically only handle one input modality and are evaluated only in simplified
web simulators or static web snapshots, greatly limiting their applicability in
real-world scenarios. To bridge this gap, we introduce WebVoyager, an
innovative Large Multimodal Model (LMM) powered web agent that can complete
user instructions end-to-end by interacting with real-world websites. Moreover,
we propose a new evaluation protocol for web agents to address the challenges
of automatic evaluation of open-ended web agent tasks, leveraging the robust
multimodal comprehension capabilities of GPT-4V. We create a new benchmark by
gathering real-world tasks from 15 widely used websites to evaluate our agents.
We show that WebVoyager achieves a 55.7% task success rate, significantly
surpassing the performance of both GPT-4 (All Tools) and the WebVoyager
(text-only) setups, underscoring the exceptional capability of WebVoyager in
practical applications. We found that our proposed automatic evaluation
achieves 85.3% agreement with human judgment, paving the way for further
development of web agents in a real-world setting.
- Abstract(参考訳): 大規模言語モデル(LLMs)の進歩は、現実の世界における自律的アプリケーションの開発によって特徴付けられる新しい時代へと繋がる。
既存のWebエージェントは通常、1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
このギャップを埋めるために、WebVoyagerを紹介します。これは、LMM(Large Multimodal Model)を利用したWebエージェントで、現実世界のWebサイトと対話することで、エンド・ツー・エンドの指示を完了します。
さらに,GPT-4Vの頑健なマルチモーダル理解機能を活用し,オープンエンドWebエージェントタスクの自動評価の課題に対処する,Webエージェントのための新しい評価プロトコルを提案する。
我々は、広く使われている15のウェブサイトから現実世界のタスクを収集し、エージェントを評価することで、新しいベンチマークを作成する。
GPT-4(All Tools)とWebVoyager(text-only)の両方の性能をはるかに上回る55.7%のタスク成功率を実現し、実用アプリケーションにおけるWebVoyagerの異常な能力を強調した。
提案した自動評価は,人間の判断と85.3%の一致を達成し,実世界におけるWebエージェントのさらなる発展の道を開いた。
関連論文リスト
- AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations [18.820883566002543]
MLLM(Multimodal Large Language Models)を利用する最先端のマルチモーダルWebエージェントは、多くのWebタスクを自律的に実行することができる。
Webエージェントを構築するための現在の戦略は、(i)基礎となるMLLMの一般化可能性と、(ii)Web関連タスクにおけるMLLMの大規模微調整によるその操縦性に依存している。
そこで我々はAdaptAgentフレームワークを導入し、プロプライエタリなマルチモーダルWebエージェントとオープンなマルチモーダルWebエージェントの両方が、人間のデモをほとんど使わずに新しいWebサイトやドメインに適応できるようにする。
論文 参考訳(メタデータ) (2024-11-20T16:54:15Z) - OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization [66.22117723598872]
マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。
まず、基本モデルを模倣学習で訓練し、基礎能力を得る。
次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-25T15:01:27Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Multimodal Auto Validation For Self-Refinement in Web Agents [0.5843533603338313]
本稿では,マルチモーダル検証と自己補充によるWebエージェントの性能向上手法を提案する。
本稿では,異なるモーダル性(テキスト,視覚)の包括的研究と,Webエージェントの自動検証における階層構造の影響について述べる。
我々はまた、Webエージェントがワークフローの失敗を検出し、自己修正することを可能にする自動バリケータを開発し、Web自動化のための自己修正機構も導入した。
論文 参考訳(メタデータ) (2024-10-01T13:43:55Z) - WebCanvas: Benchmarking Web Agents in Online Environments [29.278363444725628]
WebCanvasは、Webエージェントのための革新的なオンライン評価フレームワークである。
我々は、推論のためのモジュールを備えたエージェントフレームワークをオープンソースとして公開し、コミュニティがオンライン推論と評価を行うための基盤を提供します。
ベストパフォーマンスエージェントは,Mind2Web-Liveテストセット上でのタスク成功率23.1%,タスク完了率48.8%を達成する。
論文 参考訳(メタデータ) (2024-06-18T07:58:33Z) - WIPI: A New Web Threat for LLM-Driven Web Agents [28.651763099760664]
我々は、Web Agentを間接的に制御し、公開されているWebページに埋め込まれた悪意ある命令を実行する、新しい脅威WIPIを導入する。
WIPIを成功させるためには、ブラックボックス環境で動作させる。
提案手法は,純ブラックボックスシナリオにおいても平均攻撃成功率(ASR)が90%を超えることを達成している。
論文 参考訳(メタデータ) (2024-02-26T19:01:54Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。