論文の概要: Estimating Absolute Web Crawl Coverage From Longitudinal Set Intersections
- arxiv url: http://arxiv.org/abs/2603.15416v1
- Date: Mon, 16 Mar 2026 15:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.540141
- Title: Estimating Absolute Web Crawl Coverage From Longitudinal Set Intersections
- Title(参考訳): 縦断集合断面からの絶対ウェブクローラー被覆の推定
- Authors: Michael Paris, Grigori Paris, Fabian Baumann,
- Abstract要約: 本稿では,アーカイブの縦データのみを用いて,クローラの絶対カバレッジを推定する手法を提案する。
安定したクロール設定システムのために、クロール可能なURL空間の約46%をカバーしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web archives preserve portions of the web, but quantifying their completeness remains challenging. Prior approaches have estimated the coverage of a crawl by either comparing the outcomes of multiple crawlers, or by comparing the results of a single crawl to external ground truth datasets. We propose a method to estimate the absolute coverage of a crawl using only the archive's own longitudinal data, i.e., the data collected by multiple subsequent crawls. Our key insight is that coverage can be estimated from the empirical URL overlaps between subsequent crawls, which are in turn well described by a simple urn process. The parameters of the urn model can then be inferred from longitudinal crawl data using linear regression. Applied to our focused crawl configuration of the German Academic Web, with 15 semi-annual crawls between 2013-2021, we find a coverage of approximately 46 percent of the crawlable URL space for the stable crawl configuration regime. Our method is extremely simple, requires no external ground truth, and generalizes to any longitudinal focused crawl.
- Abstract(参考訳): WebアーカイブはWebの一部を保存するが、その完全性を定量化するのは難しい。
以前のアプローチでは、複数のクローラの結果を比較するか、単一クローラの結果を外部の地上真実データセットと比較することで、クローラのカバレッジを推定していた。
本稿では,アーカイブの縦データのみを用いてクローリングの絶対カバレッジを推定する手法を提案する。
私たちの重要な洞察は、単純なurnプロセスによってよく説明される、後続のクロー間にある経験的なURLの重複からカバレッジを推定できるということです。
urnモデルのパラメータは、線形回帰を用いて縦クロールデータから推測できる。
ドイツのアカデミックWebの集中型クローリング構成に適用し、2013年から2021年の間に15の半年にわたるクローリングを行い、安定したクローリング構成体制のために約66%のクロール可能なURL空間をカバーした。
我々の手法は極めて単純で、外部の根拠の真理を必要とせず、あらゆる縦方向の焦点を絞ったクロールに一般化する。
関連論文リスト
- Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining [78.36592534300839]
表やコードブロックなどの構造化コンテンツの場合、抽出器の選択は下流のタスク性能に大きな影響を及ぼすことを示す。
これは単純な介入を示唆している: 異なる抽出器をユニオンに取り込むことで、DCLM-Baselineのトークン収率を最大71%向上させることができる。
論文 参考訳(メタデータ) (2026-02-23T06:41:57Z) - Efficient Crawling for Scalable Web Data Acquisition (Extended Version) [4.64103400183613]
SB-CLASSIFIERは、多くのターゲットにリンクするページにつながるハイパーリンクを効率的に学習するクローラーである。
クローラは極めて効率的であり,少数の部分のみをクロールしながら,サイトのターゲットを高い割合で提供できることが示される。
論文 参考訳(メタデータ) (2026-02-12T12:23:53Z) - Search Arena: Analyzing Search-Augmented LLMs [61.28673331156436]
クラウドソーシングで大規模で,24,000以上のペア化されたマルチターンユーザインタラクションの人為的なデータセットであるSearch Arenaを紹介した。
データセットはさまざまな意図や言語にまたがっており、人間の好みの投票数約12,000の完全なシステムトレースが含まれている。
分析の結果,引用されたコンテンツが属性付クレームを直接サポートしていない場合でも,ユーザの嗜好は引用数に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2025-06-05T17:59:26Z) - Craw4LLM: Efficient Web Crawling for LLM Pretraining [45.92222494772196]
Craw4LLMは、LLM事前学習の好みに基づいてWebグラフを探索する効率的なWebクローリング手法である。
商用検索エンジンのインデックスから9億のWebページを含むWebグラフを用いた実験により,高品質な事前学習データを得る上でのCraw4LLMの有効性が示された。
論文 参考訳(メタデータ) (2025-02-19T00:31:43Z) - Beyond time delays: How web scraping distorts measures of online news consumption [0.4706932040794696]
ユーザのWebサイト(in-situ)との直接対話中に得られるコンテンツと、参加者のログインした訪問先(ex-situ)のURLを様々な時間遅延でスクラップしたコンテンツとの相違について検討した。
その結果,誤差がニュースカテゴリーに均一に分散されていないことが判明した。
本研究では,ユーザの環境下で直接Webコンテンツをキャプチャするデータ収集手法の必要性を強調した。
論文 参考訳(メタデータ) (2024-11-30T13:36:48Z) - DC-NAS: Divide-and-Conquer Neural Architecture Search [108.57785531758076]
本稿では,ディープ・ニューラル・アーキテクチャーを効果的かつ効率的に探索するためのディバイド・アンド・コンカ(DC)手法を提案する。
ImageNetデータセットで75.1%の精度を達成しており、これは同じ検索空間を使った最先端の手法よりも高い。
論文 参考訳(メタデータ) (2020-05-29T09:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。