論文の概要: Multimodal Auto Validation For Self-Refinement in Web Agents
- arxiv url: http://arxiv.org/abs/2410.00689v2
- Date: Fri, 11 Oct 2024 15:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:30:09.407883
- Title: Multimodal Auto Validation For Self-Refinement in Web Agents
- Title(参考訳): Webエージェントにおける自己修復のためのマルチモーダルオートバリデーション
- Authors: Ruhana Azam, Tamer Abuelsaad, Aditya Vempaty, Ashish Jagmohan,
- Abstract要約: 本稿では,マルチモーダル検証と自己補充によるWebエージェントの性能向上手法を提案する。
本稿では,異なるモーダル性(テキスト,視覚)の包括的研究と,Webエージェントの自動検証における階層構造の影響について述べる。
我々はまた、Webエージェントがワークフローの失敗を検出し、自己修正することを可能にする自動バリケータを開発し、Web自動化のための自己修正機構も導入した。
- 参考スコア(独自算出の注目度): 0.5843533603338313
- License:
- Abstract: As our world digitizes, web agents that can automate complex and monotonous tasks are becoming essential in streamlining workflows. This paper introduces an approach to improving web agent performance through multi-modal validation and self-refinement. We present a comprehensive study of different modalities (text, vision) and the effect of hierarchy for the automatic validation of web agents, building upon the state-of-the-art Agent-E web automation framework. We also introduce a self-refinement mechanism for web automation, using the developed auto-validator, that enables web agents to detect and self-correct workflow failures. Our results show significant gains on Agent-E's (a SOTA web agent) prior state-of-art performance, boosting task-completion rates from 76.2\% to 81.24\% on the subset of the WebVoyager benchmark. The approach presented in this paper paves the way for more reliable digital assistants in complex, real-world scenarios.
- Abstract(参考訳): 私たちの世界がデジタル化するにつれ、複雑で単調なタスクを自動化できるWebエージェントがワークフローの合理化に欠かせないものになりつつある。
本稿では,マルチモーダル検証と自己補充によるWebエージェントの性能向上手法を提案する。
本稿では,Webエージェントの自動検証のための階層構造が,最先端のAgent-E Webオートメーションフレームワークを基盤として,様々なモダリティ(テキスト,ビジョン)の包括的研究を行う。
我々はまた、Webエージェントがワークフローの失敗を検出し、自己修正することを可能にする自動バリケータを開発し、Web自動化のための自己修正機構も導入した。
その結果,Agent-E(SOTA Webエージェント)の最先端性能が向上し,WebVoyagerベンチマークのサブセットでタスク補完率が76.2\%から81.24\%に向上した。
本稿では,複雑な実世界のシナリオにおいて,より信頼性の高いディジタルアシスタントを実現する方法について述べる。
関連論文リスト
- Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems [1.079505444748609]
本稿では,新しいWebエージェントであるAgent-Eの構築について紹介する。
Agent-Eは、最先端のWebエージェントよりも多くのアーキテクチャ改善を導入している。
我々は,Agent-Eが他のSOTAテキストおよびマルチモーダルWebエージェントを,ほとんどのカテゴリで10~30%上回っていることを示す。
論文 参考訳(メタデータ) (2024-07-17T21:44:28Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - WebSuite: Systematically Evaluating Why Web Agents Fail [2.200477647229223]
我々は、ジェネラリストWebエージェントの最初の診断ベンチマークであるWebSuiteについて説明する。
このベンチマークスイートは、ボタンをクリックするなどの個々のタスクと、カートにアイテムを追加するなどのエンドツーエンドタスクの両方で構成されている。
我々は、テキストベースとマルチモーダルの2つの一般的なジェネラリストWebエージェントを評価し、各エージェントに固有の弱点を特定する。
論文 参考訳(メタデータ) (2024-06-01T00:32:26Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z) - AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。
大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。