論文の概要: Efficient Crawling for Scalable Web Data Acquisition (Extended Version)
- arxiv url: http://arxiv.org/abs/2602.11874v1
- Date: Thu, 12 Feb 2026 12:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.802811
- Title: Efficient Crawling for Scalable Web Data Acquisition (Extended Version)
- Title(参考訳): スケーラブルなWebデータ取得のための効率的なクローリング(拡張バージョン)
- Authors: Antoine Gauquier, Ioana Manolescu, Pierre Senellart,
- Abstract要約: SB-CLASSIFIERは、多くのターゲットにリンクするページにつながるハイパーリンクを効率的に学習するクローラーである。
クローラは極めて効率的であり,少数の部分のみをクロールしながら,サイトのターゲットを高い割合で提供できることが示される。
- 参考スコア(独自算出の注目度): 4.64103400183613
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Journalistic fact-checking, as well as social or economic research, require analyzing high-quality statistics datasets (SDs, in short). However, retrieving SD corpora at scale may be hard, inefficient, or impossible, depending on how they are published online. To improve open statistics data accessibility, we present a focused Web crawling algorithm that retrieves as many targets, i.e., resources of certain types, as possible, from a given website, in an efficient and scalable way, by crawling (much) less than the full website. We show that optimally solving this problem is intractable, and propose an approach based on reinforcement learning, namely using sleeping bandits. We propose SB-CLASSIFIER, a crawler that efficiently learns which hyperlinks lead to pages that link to many targets, based on the paths leading to the links in their enclosing webpages. Our experiments on websites with millions of webpages show that our crawler is highly efficient, delivering high fractions of a site's targets while crawling only a small part.
- Abstract(参考訳): ジャーナリズムの事実チェックは、社会や経済の研究と同様に、高品質な統計データセット(SD)の分析を必要とする。
しかし、大規模なSDコーパスの取得は、オンライン公開方法によっては困難、非効率、あるいは不可能である可能性がある。
オープンな統計データのアクセシビリティを向上させるために,Webクローリングアルゴリズムを提案する。このアルゴリズムは,特定のWebサイトから可能な限り多くのターゲット,すなわち特定のタイプのリソースを,フルWebサイトより少ないクローリング(マス)により,効率的でスケーラブルな方法で検索する。
本稿では,この問題の最適解法が難解であることを示し,睡眠帯域を用いた強化学習に基づくアプローチを提案する。
SB-CLASSIFIERは,リンクを囲むWebページのリンクにつながる経路に基づいて,ハイパーリンクが多くのターゲットにリンクするページを効率的に学習するクローラである。
数百万のWebページを持つWebサイトの実験では、クローラは極めて効率的で、サイトのターゲットのごく一部をクローリングしながら、少数の部分しか提供していません。
関連論文リスト
- Branch-and-Browse: Efficient and Controllable Web Exploration with Tree-Structured Reasoning and Action Memory [69.49061918994882]
Branch-and-Browseは構造化推論処理、コンテキスト記憶、効率的な実行を統一する、きめ細かいWebエージェントフレームワークである。
WebArenaベンチマークでは、Branch-and-Browseはタスク成功率35.8%を達成し、最先端の手法と比較して実行時間を最大40.4%削減している。
論文 参考訳(メタデータ) (2025-10-18T00:45:37Z) - Going over Fine Web with a Fine-Tooth Comb: Technical Report of Indexing Fine Web for Problematic Content Search and Retrieval [0.0]
このプロジェクトでは,ElasticSearchベースのパイプラインを使用して,大規模言語トレーニングデータセットのインデックス化と分析を行うフレームワークを提案する。
我々はスイスAIのFineWeb-2コーパスに適用し、高速なクエリ性能を実現した。
論文 参考訳(メタデータ) (2025-08-29T17:04:20Z) - Craw4LLM: Efficient Web Crawling for LLM Pretraining [45.92222494772196]
Craw4LLMは、LLM事前学習の好みに基づいてWebグラフを探索する効率的なWebクローリング手法である。
商用検索エンジンのインデックスから9億のWebページを含むWebグラフを用いた実験により,高品質な事前学習データを得る上でのCraw4LLMの有効性が示された。
論文 参考訳(メタデータ) (2025-02-19T00:31:43Z) - WebWalker: Benchmarking LLMs in Web Traversal [64.48425443951749]
WebWalkerQAは,LLMがWebトラバースを実現する能力を評価するためのベンチマークである。
本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-01-13T18:58:07Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - Tree-based Focused Web Crawling with Reinforcement Learning [3.4877567508788134]
集中型クローラは、ターゲットトピックに関連するWebページやWebサイトを可能な限り多く見つけ、無関係なものを避けることを目的としている。
我々は,関連Webページ数と関連Webサイト数の両方を最大化することを目的とした,集中型クローリングのための新しいフレームワークであるTRESを提案する。
論文 参考訳(メタデータ) (2021-12-12T00:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。