Fugu-MT 論文翻訳(概要): WebLists: Extracting Structured Information From Complex Interactive Websites Using Executable LLM Agents

論文の概要: WebLists: Extracting Structured Information From Complex Interactive Websites Using Executable LLM Agents

arxiv url: http://arxiv.org/abs/2504.12682v1
Date: Thu, 17 Apr 2025 06:16:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 22:34:49.624314
Title: WebLists: Extracting Structured Information From Complex Interactive Websites Using Executable LLM Agents
Title（参考訳）: WebLists: Executable LLM Agentsを使って複雑なインタラクティブWebサイトから構造化情報を抽出する
Authors: Arth Bohra, Manvel Saroyan, Danil Melkozerov, Vahe Karufanyan, Gabriel Maher, Pascal Weinberger, Artem Harutyunyan, Giovanni Campagna,
Abstract要約: 我々は、一般的な4つのビジネスおよびエンタープライズユースケースにわたる200のデータ抽出タスクのベンチマークであるWebListsを紹介します。検索能力を有するLLMとSOTA Webエージェントの両方が、それぞれ3%と31%のリコールで、これらのタスクに苦労していることを示す。提案するBardeenAgentは,Webエージェントが実行をリピータブルなプログラムに変換し,類似した構造を持つページ間で大規模に再生することを可能にする新しいフレームワークである。 WebListsベンチマークでは、BardeenAgentが総リコール総数の66%を達成し、SOTA Webエージェントのパフォーマンスを倍増し、出力行あたりのコストを3倍に削減した。
参考スコア（独自算出の注目度）: 1.6673034682613495
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most recent web agent research has focused on navigation and transaction tasks, with little emphasis on extracting structured data at scale. We present WebLists, a benchmark of 200 data-extraction tasks across four common business and enterprise use-cases. Each task requires an agent to navigate to a webpage, configure it appropriately, and extract complete datasets with well-defined schemas. We show that both LLMs with search capabilities and SOTA web agents struggle with these tasks, with a recall of 3% and 31%, respectively, despite higher performance on question-answering tasks. To address this challenge, we propose BardeenAgent, a novel framework that enables web agents to convert their execution into repeatable programs, and replay them at scale across pages with similar structure. BardeenAgent is also the first LLM agent to take advantage of the regular structure of HTML. In particular BardeenAgent constructs a generalizable CSS selector to capture all relevant items on the page, then fits the operations to extract the data. On the WebLists benchmark, BardeenAgent achieves 66% recall overall, more than doubling the performance of SOTA web agents, and reducing cost per output row by 3x.
Abstract（参考訳）: 最近のWebエージェントの研究はナビゲーションとトランザクションタスクに重点を置いており、大規模に構造化されたデータを抽出することにはほとんど重点を置いていない。我々は、一般的な4つのビジネスおよびエンタープライズユースケースにわたる200のデータ抽出タスクのベンチマークであるWebListsを紹介します。各タスクは、エージェントがWebページにナビゲートし、適切に設定し、適切に定義されたスキーマで完全なデータセットを抽出する必要がある。検索能力を有するLLMとSOTA Webエージェントの両方がこれらのタスクに苦戦しており、質問応答タスクでは高い性能を示したにもかかわらず、それぞれ3%と31%のリコールがあった。この課題に対処するために、Webエージェントが実行をリピータブルなプログラムに変換し、同様の構造を持つページ間で大規模に再生できる新しいフレームワークBardeenAgentを提案する。 BardeenAgent は HTML の正規構造を利用する最初の LLM エージェントでもある。特にBardeenAgentは、CSSセレクタを構築して、ページ上のすべての関連するアイテムをキャプチャし、操作に適合してデータを抽出する。 WebListsベンチマークでは、BardeenAgentが総リコール総数の66%を達成し、SOTA Webエージェントのパフォーマンスを倍増し、出力行あたりのコストを3倍に削減した。

関連論文リスト

MoRAgent: Parameter Efficient Agent Tuning with Mixture-of-Roles [25.198556596878362]
本稿では,エージェントタスクにおけるパラメータ効率細調整(PEFT)の3つの重要な戦略を紹介する。より支配的なReason+Actionパラダイムに着想を得て、エージェントタスクに必要な機能を3つの異なる役割に分解する。そこで我々は3つのLoRAグループからなるMixture-of-Roles(Mixture-of-Roles)フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-25T15:02:07Z)
WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance [29.57207599604568]
WebCoachはモデルに依存しない自己進化フレームワークで、Webブラウジングエージェントに永続的なクロスセッションメモリを提供する。 WebCoachは、新しいナビゲーショントラジェクトリから連続的にエピソードメモリをキュレートすることで、自己進化を実現する。 WebVoyagerベンチマークの評価は、WebCoachがブラウザ使用エージェントのパフォーマンスを一貫して改善していることを示している。
論文参考訳（メタデータ） (2025-11-17T05:38:50Z)
BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions [48.194688161526756]
BrowserAgentは、事前に定義されたブラウザアクションのセットを通じて、Playwright経由で生のWebページで直接動作する。ステップ間で重要な結論を格納するための明示的なメモリ機構を導入し、モデルの推論能力をさらに強化する。
論文参考訳（メタデータ） (2025-10-12T15:43:37Z)
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-02-20T05:41:55Z)
AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文参考訳（メタデータ） (2024-12-12T18:59:27Z)
ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data [18.129300915372415]
大規模言語モデル(LLM)エージェントは、ますます複雑なWebベースのタスクを処理するために急速に改善されている。汎用 LLM は、HTML のような特別な Web コンテキストを理解するために特別に訓練されていない。我々は、60億のトークンに対応する250以上のドメインから収集された実運用規模のワークフローデータを用いて、オープンソースLLMを微調整する別のアプローチを探る。
論文参考訳（メタデータ） (2024-11-22T15:26:23Z)
Infogent: An Agent-Based Framework for Web Information Aggregation [59.67710556177564]
我々はWeb情報集約のための新しいフレームワークInfogentを紹介する。異なる情報アクセス設定の実験では、Infogentが既存のSOTAマルチエージェント検索フレームワークを7%上回った。
論文参考訳（メタデータ） (2024-10-24T18:01:28Z)
Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウジングエージェントを上回っている。ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文参考訳（メタデータ） (2024-10-21T19:46:06Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文参考訳（メタデータ） (2024-04-19T09:59:44Z)
AutoWebGLM: A Large Language Model-based Web Navigating Agent [33.55199326570078]
オープンなAutoWebGLMをChatGLM3-6Bに基づいて開発する。人間のブラウジングパターンにインスパイアされた我々は、まず、Webページを表現するためのHTML単純化アルゴリズムを設計する。次に,カリキュラム学習のためのWebブラウジングデータを構築するために,ハイブリッドなヒューマンAI手法を用いる。
論文参考訳（メタデータ） (2024-04-04T17:58:40Z)
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。 WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文参考訳（メタデータ） (2023-07-24T14:56:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。