論文の概要: A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis
- arxiv url: http://arxiv.org/abs/2307.12856v1
- Date: Mon, 24 Jul 2023 14:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 13:51:49.469936
- Title: A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis
- Title(参考訳): 計画、長い文脈理解、プログラム合成を備えた現実世界のウェブエージェント
- Authors: Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka
Matsuo, Douglas Eck, Aleksandra Faust
- Abstract要約: 自然言語の指示に従って実際のWebサイト上でタスクを完了できるLLM駆動エージェントであるWebAgentを紹介する。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、生成されたPythonプログラムを介してウェブサイトで動作させることを計画している。
我々は、我々のレシピが実際のウェブサイトの成功を50%以上改善し、HTML-T5がHTMLベースのタスクを解決する最良のモデルであることを実証的に実証した。
- 参考スコア(独自算出の注目度): 79.07921136099199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained large language models (LLMs) have recently achieved better
generalization and sample efficiency in autonomous web navigation. However, the
performance on real-world websites has still suffered from (1) open domainness,
(2) limited context length, and (3) lack of inductive bias on HTML. We
introduce WebAgent, an LLM-driven agent that can complete the tasks on real
websites following natural language instructions. WebAgent plans ahead by
decomposing instructions into canonical sub-instructions, summarizes long HTML
documents into task-relevant snippets, and acts on websites via generated
Python programs from those. We design WebAgent with Flan-U-PaLM, for grounded
code generation, and HTML-T5, new pre-trained LLMs for long HTML documents
using local and global attention mechanisms and a mixture of long-span
denoising objectives, for planning and summarization. We empirically
demonstrate that our recipe improves the success on a real website by over 50%,
and that HTML-T5 is the best model to solve HTML-based tasks; achieving 14.9%
higher success rate than prior SoTA on the MiniWoB web navigation benchmark and
better accuracy on offline task planning evaluation.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)は、最近、自律Webナビゲーションにおけるより優れた一般化とサンプル効率を実現している。
しかし,実世界のWebサイトのパフォーマンスは,(1)オープンドメイン性,(2)コンテキスト長の制限,(3)HTMLの帰納バイアスの欠如に悩まされている。
自然言語の指示に従って実際のWebサイト上でタスクを完了できるLLM駆動エージェントであるWebAgentを紹介する。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、それらから生成されたPythonプログラムを介してウェブサイトで動作させることを計画している。
We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML document using local and global attention mechanism and a mixture of long-span denoising objectives, for planning and summarization。
我々は,本手法が実際のWebサイトにおける成功率を50%以上向上させ,HTML-T5がHTMLベースのタスクを解く最良のモデルであること,MiniWoB WebナビゲーションベンチマークにおけるSoTAよりも14.9%高い成功率,オフラインタスク計画評価における精度の向上を実証的に示す。
関連論文リスト
- AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation [55.86438100985539]
垂直情報Webページのためのクローラ生成タスクを提案する。
本稿では,段階的理解のためにHTMLの階層構造を利用する2段階フレームワークであるAutoCrawlerを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.60866817774641]
MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。
Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。
benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2024-04-09T02:29:39Z) - AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent [33.55199326570078]
AutoWebGLMはChatGLM3-6B上に構築された自動Webナビゲーションエージェントである。
人間のブラウジングパターンにインスパイアされた我々は、Webページを表現するためのHTML単純化アルゴリズムを設計する。
テストのために、現実世界のWebブラウジングタスクのためのバイリンガルベンチマーク -- AutoWebBench -- を確立しました。
論文 参考訳(メタデータ) (2024-04-04T17:58:40Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal
Models [67.9935966375389]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z) - GPT-4V(ision) is a Generalist Web Agent, if Grounded [20.940613419944015]
GPT-4Vは、手動でウェブサイト上のアクションに計画を立てれば、ライブWebサイト上で51.1タスクを完了できることを示す。
本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用するWebエージェントであるSEEACTを提案する。
論文 参考訳(メタデータ) (2024-01-03T08:33:09Z) - Mind2Web: Towards a Generalist Agent for the Web [25.363429937913065]
Mind2Webは、Webのためのジェネラリストエージェントの開発と評価のための最初のデータセットである。
31のドメインにまたがる137のWebサイトから2,000以上のオープンエンドタスクが収集され、Mind2WebはジェネラリストWebエージェントを構築するために必要な3つの材料を提供する。
Mind2Webをベースとして,汎用的なWebエージェントを構築するために,大規模言語モデル(LLM)を最初に検討する。
論文 参考訳(メタデータ) (2023-06-09T17:44:31Z) - Multimodal Web Navigation with Instruction-Finetuned Foundation Models [99.14209521903854]
視覚言語基礎モデルを用いたWebエージェントのためのデータ駆動オフライントレーニングについて検討する。
本稿では,WebページのスクリーンショットとHTMLページの両方を観察する命令追従型マルチモーダルエージェントWebGUMを提案する。
このレシピは,マルチモーダル認識,HTML理解,マルチステップ推論といったエージェントの能力を向上させることを実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T17:44:34Z) - Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。
我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。
本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文 参考訳(メタデータ) (2022-10-08T07:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。