論文の概要: Webscraper: Leverage Multimodal Large Language Models for Index-Content Web Scraping
- arxiv url: http://arxiv.org/abs/2603.29161v1
- Date: Tue, 31 Mar 2026 02:20:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.041797
- Title: Webscraper: Leverage Multimodal Large Language Models for Index-Content Web Scraping
- Title(参考訳): Webscraper:Index-Content Webストラップのためのマルチモーダル大言語モデルを活用する
- Authors: Guan-Lun Huang, Yuh-Jzer Joung,
- Abstract要約: Webscraperは、モダンで動的なWebアプリケーションの課題を扱うように設計されたフレームワークである。
Webscraperは、対話的なインターフェースを自律的にナビゲートし、特殊なツールを実行し、構造化されたデータ抽出を実行する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern web scraping struggles with dynamic, interactive websites that require more than static HTML parsing. Current methods are often brittle and require manual customization for each site. To address this, we introduce Webscraper, a framework designed to handle the challenges of modern, dynamic web applications. It leverages a Multimodal Large Language Model (MLLM) to autonomously navigate interactive interfaces, invoke specialized tools, and perform structured data extraction in environments where traditional scrapers are ineffective. Webscraper utilizes a structured five-stage prompting procedure and a set of custom-built tools to navigate and extract data from websites following the common ``index-and-content'' architecture. Our experiments, conducted on six news websites, demonstrate that the full Webscraper framework, equipped with both our guiding prompt and specialized tools, achieves a significant improvement in extraction accuracy over the baseline agent Anthropic's Computer Use. We also applied the framework to e-commerce platforms to validate its generalizability.
- Abstract(参考訳): 現代のWebスクレイピングは、静的なHTMLパース以上のものを必要とする動的でインタラクティブなWebサイトと苦労しています。
現在の手法は不安定で、各サイトごとに手動でカスタマイズする必要があることが多い。
これを解決するために、私たちは、モダンで動的なWebアプリケーションの課題に対処するために設計されたフレームワークであるWebscraperを紹介します。
MLLM(Multimodal Large Language Model)を利用して、対話的なインターフェースを自律的にナビゲートし、特殊なツールを実行し、従来のスクレーカーが有効でない環境で構造化されたデータ抽出を実行する。
Webscraperは構造化された5段階のプロンプトプロシージャとカスタムビルドツールを使用して、'index-and-content'アーキテクチャに従ってWebサイトからデータをナビゲートし、抽出する。
6つのニュースサイトで実施した実験により, ガイドプロンプトと特殊ツールの両方を備えたWebscraperフレームワークが, ベースラインエージェントである Anthropic's Computer Use に対して, 抽出精度を大幅に向上することを示した。
また、このフレームワークをeコマースプラットフォームに適用し、その一般化可能性を検証する。
関連論文リスト
- LiveWeb-IE: A Benchmark For Online Web Information Extraction [48.82654261583883]
Web情報抽出(WIE)は、Webページから自動的にデータを抽出するタスクであり、様々なアプリケーションに高いユーティリティを提供する。
ライブWebサイトに対して,WIEシステムを直接評価するための新しいベンチマークである,データセットを導入する。
また,Webページコンテンツを視覚的に絞り込み,所望の情報を抽出することで,人間の認知過程を模倣する新しい多段階エージェントフレームワークであるVisual Grounding Scraper (VGS)を提案する。
論文 参考訳(メタデータ) (2026-03-14T05:55:11Z) - Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts [59.68272935616536]
Avenir-Webは、現実世界のデプロイにおいて、Online-Mind2Webベンチマークの新たなオープンソース状態を達成するWebエージェントである。
Avenir-Web on Online-Mind2Web, a rigorous benchmark of live and user-centered web task。
論文 参考訳(メタデータ) (2026-02-02T18:50:07Z) - WebDS: An End-to-End Benchmark for Web-based Data Science [59.270670758607494]
WebDSは、Webベースの初のエンドツーエンドデータサイエンスベンチマークである。
29のWebサイトにわたる870のWebベースのデータサイエンスタスクで構成されている。
WebDSは、実用的に有用なLCMベースのデータサイエンスの開発において、大きな進歩の舞台となる。
論文 参考訳(メタデータ) (2025-08-02T06:39:59Z) - WebNav: An Intelligent Agent for Voice-Controlled Web Navigation [0.0]
WebNavはマルチモーダルなWebナビゲーションのための新しいエージェントである。
システムは、スクリーンショットからの視覚ベースのコンテキストと動的DOMラベルのブラウザ拡張を組み合わせる。
論文 参考訳(メタデータ) (2025-03-18T02:33:27Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - AutoWebGLM: A Large Language Model-based Web Navigating Agent [33.55199326570078]
オープンなAutoWebGLMをChatGLM3-6Bに基づいて開発する。
人間のブラウジングパターンにインスパイアされた我々は、まず、Webページを表現するためのHTML単純化アルゴリズムを設計する。
次に,カリキュラム学習のためのWebブラウジングデータを構築するために,ハイブリッドなヒューマンAI手法を用いる。
論文 参考訳(メタデータ) (2024-04-04T17:58:40Z) - On the Multi-turn Instruction Following for Conversational Web Agents [83.51251174629084]
本稿では,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,対話型Webナビゲーションの新たなタスクを紹介する。
本稿では,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T02:18:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。