Fugu-MT 論文翻訳(概要): A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis

論文の概要: A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis

arxiv url: http://arxiv.org/abs/2307.12856v1
Date: Mon, 24 Jul 2023 14:56:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 13:51:49.469936
Title: A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis
Title（参考訳）: 計画、長い文脈理解、プログラム合成を備えた現実世界のウェブエージェント
Authors: Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust
Abstract要約: 自然言語の指示に従って実際のWebサイト上でタスクを完了できるLLM駆動エージェントであるWebAgentを紹介する。 WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、生成されたPythonプログラムを介してウェブサイトで動作させることを計画している。我々は、我々のレシピが実際のウェブサイトの成功を50%以上改善し、HTML-T5がHTMLベースのタスクを解決する最良のモデルであることを実証的に実証した。
参考スコア（独自算出の注目度）: 79.07921136099199
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained large language models (LLMs) have recently achieved better generalization and sample efficiency in autonomous web navigation. However, the performance on real-world websites has still suffered from (1) open domainness, (2) limited context length, and (3) lack of inductive bias on HTML. We introduce WebAgent, an LLM-driven agent that can complete the tasks on real websites following natural language instructions. WebAgent plans ahead by decomposing instructions into canonical sub-instructions, summarizes long HTML documents into task-relevant snippets, and acts on websites via generated Python programs from those. We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML documents using local and global attention mechanisms and a mixture of long-span denoising objectives, for planning and summarization. We empirically demonstrate that our recipe improves the success on a real website by over 50%, and that HTML-T5 is the best model to solve HTML-based tasks; achieving 14.9% higher success rate than prior SoTA on the MiniWoB web navigation benchmark and better accuracy on offline task planning evaluation.
Abstract（参考訳）: 事前訓練された大規模言語モデル(LLM)は、最近、自律Webナビゲーションにおけるより優れた一般化とサンプル効率を実現している。しかし,実世界のWebサイトのパフォーマンスは,(1)オープンドメイン性,(2)コンテキスト長の制限,(3)HTMLの帰納バイアスの欠如に悩まされている。自然言語の指示に従って実際のWebサイト上でタスクを完了できるLLM駆動エージェントであるWebAgentを紹介する。 WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、それらから生成されたPythonプログラムを介してウェブサイトで動作させることを計画している。 We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML document using local and global attention mechanism and a mixture of long-span denoising objectives, for planning and summarization。我々は,本手法が実際のWebサイトにおける成功率を50%以上向上させ,HTML-T5がHTMLベースのタスクを解く最良のモデルであること,MiniWoB WebナビゲーションベンチマークにおけるSoTAよりも14.9%高い成功率,オフラインタスク計画評価における精度の向上を実証的に示す。

関連論文リスト

Prune4Web: DOM Tree Pruning Programming for Web Agent [20.59581294172181]
Prune4Webは、DOM処理をリソース集約型LLM読み込みから効率的なプログラムプルーニングに移行する新しいパラダイムである。そこで我々は,Planner, Programmatic Filter, Grounderを協調的に最適化する,特殊なデータアノテーションパイプラインと2ターン対話訓練戦略を提案する。
論文参考訳（メタデータ） (2025-11-26T13:49:39Z)
WALT: Web Agents that Learn Tools [66.73502484310121]
WALTは、Webサイト機能を再利用不能なツールにリバースエンジニアリングするフレームワークである。 WALTはアドホックなスキルを仮説化するのではなく、既にウェブサイトに設計されている自動化の堅牢な実装を公開している。 VisualWebArenaとWebArenaでは、WALTはより少ないステップとLLM依存の推論でより高い成功を達成している。
論文参考訳（メタデータ） (2025-10-01T23:41:47Z)
ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data [18.129300915372415]
大規模言語モデル(LLM)エージェントは、ますます複雑なWebベースのタスクを処理するために急速に改善されている。汎用 LLM は、HTML のような特別な Web コンテキストを理解するために特別に訓練されていない。我々は、60億のトークンに対応する250以上のドメインから収集された実運用規模のワークフローデータを用いて、オープンソースLLMを微調整する別のアプローチを探る。
論文参考訳（メタデータ） (2024-11-22T15:26:23Z)
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [23.1522773245956]
モデルベースプランニングで言語エージェントを増強する新しいパラダイムを導入する。我々の方法であるWebDreamerは、LLMが本質的にウェブサイトの構造や機能に関する包括的知識をエンコードしているというキーインサイトを構築している。
論文参考訳（メタデータ） (2024-11-10T18:50:51Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Steward: Natural Language Web Automation [19.301371856154965]
大規模言語モデル(LLM)は、AIアシスタントの基盤として機能する優れた能力を示している。我々は、低コストでスケーラブルでエンドツーエンドなWebインタラクション自動化ソリューションとして機能するように設計された、新しいLLMベースのWeb自動化ツールであるStewardを紹介します。本稿では,状態表現,アクションシーケンス選択,システム応答性,タスク完了の検出,キャッシュ実装など,さまざまな設計と実装の課題について論じる。
論文参考訳（メタデータ） (2024-09-23T18:06:32Z)
Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs [112.89665642941814]
MLLM(Multimodal large language model)は、画像、ビデオ、オーディオなどのモダリティにおいて顕著な成功を収めている。現在のMLLMは、Webページのスクリーンショットを理解し、対応するHTMLコードを生成するのに驚くほど貧弱です。命令チューニングのための大規模Webページ・ツー・コードデータセットを新たに構築したベンチマークを提案する。
論文参考訳（メタデータ） (2024-06-28T17:59:46Z)
AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文参考訳（メタデータ） (2024-04-19T09:59:44Z)
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。 GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文参考訳（メタデータ） (2024-01-25T03:33:18Z)
GPT-4V(ision) is a Generalist Web Agent, if Grounded [20.940613419944015]
GPT-4Vは、手動でウェブサイト上のアクションに計画を立てれば、ライブWebサイト上で51.1タスクを完了できることを示す。本稿では,Web上での視覚的理解と行動の統合にLMMの力を利用するWebエージェントであるSEEACTを提案する。
論文参考訳（メタデータ） (2024-01-03T08:33:09Z)
Mind2Web: Towards a Generalist Agent for the Web [25.363429937913065]
Mind2Webは、Webのためのジェネラリストエージェントの開発と評価のための最初のデータセットである。 31のドメインにまたがる137のWebサイトから2,000以上のオープンエンドタスクが収集され、Mind2WebはジェネラリストWebエージェントを構築するために必要な3つの材料を提供する。 Mind2Webをベースとして,汎用的なWebエージェントを構築するために,大規模言語モデル(LLM)を最初に検討する。
論文参考訳（メタデータ） (2023-06-09T17:44:31Z)
Understanding HTML with Large Language Models [73.92747433749271]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な性能を示している。我々は,HTML 理解モデル (微調整 LLM ) と,その機能に関する3つのタスクの詳細な分析に貢献する。本稿では,標準自然言語コーパスで事前訓練されたLLMが,HTML理解タスクに極めて適していることを示す。
論文参考訳（メタデータ） (2022-10-08T07:27:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。