論文の概要: WebWalker: Benchmarking LLMs in Web Traversal
- arxiv url: http://arxiv.org/abs/2501.07572v2
- Date: Tue, 14 Jan 2025 15:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:29:32.721915
- Title: WebWalker: Benchmarking LLMs in Web Traversal
- Title(参考訳): WebWalker: WebtraversalにおけるLLMのベンチマーク
- Authors: Jialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Linhai Zhang, Yulan He, Deyu Zhou, Pengjun Xie, Fei Huang,
- Abstract要約: WebWalkerQAは,LLMがWebトラバースを実現する能力を評価するためのベンチマークである。
本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
- 参考スコア(独自算出の注目度): 64.48425443951749
- License:
- Abstract: Retrieval-augmented generation (RAG) demonstrates remarkable performance across tasks in open-domain question-answering. However, traditional search engines may retrieve shallow content, limiting the ability of LLMs to handle complex, multi-layered information. To address it, we introduce WebWalkerQA, a benchmark designed to assess the ability of LLMs to perform web traversal. It evaluates the capacity of LLMs to traverse a website's subpages to extract high-quality data systematically. We propose WebWalker, which is a multi-agent framework that mimics human-like web navigation through an explore-critic paradigm. Extensive experimental results show that WebWalkerQA is challenging and demonstrates the effectiveness of RAG combined with WebWalker, through the horizontal and vertical integration in real-world scenarios.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、オープンドメイン質問応答におけるタスク間での顕著なパフォーマンスを示す。
しかし、従来の検索エンジンは浅いコンテンツを検索し、LLMが複雑な多層情報を扱う能力を制限する。
そこで本研究では,LLMがWebトラバースを実現する能力を評価するためのベンチマークであるWebWalkerQAを紹介する。
ウェブサイトのサブページを横断して高品質なデータを体系的に抽出するLLMの能力を評価する。
本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
大規模な実験結果から,WebWalkerQAはWebWalkerと組み合わせたRAGの有効性を実世界のシナリオにおける水平および垂直の統合を通じて実証している。
関連論文リスト
- AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.60866817774641]
MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。
Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。
benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2024-04-09T02:29:39Z) - AutoWebGLM: A Large Language Model-based Web Navigating Agent [33.55199326570078]
オープンなAutoWebGLMをChatGLM3-6Bに基づいて開発する。
人間のブラウジングパターンにインスパイアされた我々は、まず、Webページを表現するためのHTML単純化アルゴリズムを設計する。
次に,カリキュラム学習のためのWebブラウジングデータを構築するために,ハイブリッドなヒューマンAI手法を用いる。
論文 参考訳(メタデータ) (2024-04-04T17:58:40Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z) - AllTogether: Investigating the Efficacy of Spliced Prompt for Web
Navigation using Large Language Models [2.234037966956278]
タスクコンテキスト表現を強化する標準化されたプロンプトテンプレートであるAllTogetherを紹介する。
我々は,オープンソースのLlama-2とAPIアクセス可能なGPTモデルに基づいて,素早い学習と指導の微調整により,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-10-20T11:10:14Z) - LASER: LLM Agent with State-Space Exploration for Web Navigation [57.802977310392755]
大規模言語モデル(LLM)は、Webナビゲーションのようなインタラクティブな意思決定タスクにうまく適応している。
以前のメソッドでは、モデルに対して前方のみの実行モードを暗黙的に仮定しており、そこでは、オンコンテキストの例として、オラクルのトラジェクトリのみを提供する。
本稿では,対話型タスクを状態空間探索としてモデル化することを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:44:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。