論文の概要: A Scalable Crawling Algorithm Utilizing Noisy Change-Indicating Signals
- arxiv url: http://arxiv.org/abs/2502.02430v1
- Date: Tue, 04 Feb 2025 15:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:57.213154
- Title: A Scalable Crawling Algorithm Utilizing Noisy Change-Indicating Signals
- Title(参考訳): 雑音変化指示信号を用いたスケーラブルクローリングアルゴリズム
- Authors: Róbert Busa-Fekete, Julian Zimmert, András György, Linhai Qiu, Tzu-Wei Sung, Hao Shen, Hyomin Choi, Sharmila Subramaniam, Li Xiao,
- Abstract要約: 提案手法は, (i) 雑音側情報を軽度な仮定で最適に利用するスケーラブルなクローリングアルゴリズム, (ii) 重心集中型計算を使わずにデプロイできる, (iii) 任意の時間間隔で全帯域使用量をスパイクすることなくWebページを一定の総レートでクロールできる,という手法である。
- 参考スコア(独自算出の注目度): 35.53487005950327
- License:
- Abstract: Web refresh crawling is the problem of keeping a cache of web pages fresh, that is, having the most recent copy available when a page is requested, given a limited bandwidth available to the crawler. Under the assumption that the change and request events, resp., to each web page follow independent Poisson processes, the optimal scheduling policy was derived by Azar et al. 2018. In this paper, we study an extension of this problem where side information indicating content changes, such as various types of web pings, for example, signals from sitemaps, content delivery networks, etc., is available. Incorporating such side information into the crawling policy is challenging, because (i) the signals can be noisy with false positive events and with missing change events; and (ii) the crawler should achieve a fair performance over web pages regardless of the quality of the side information, which might differ from web page to web page. We propose a scalable crawling algorithm which (i) uses the noisy side information in an optimal way under mild assumptions; (ii) can be deployed without heavy centralized computation; (iii) is able to crawl web pages at a constant total rate without spikes in the total bandwidth usage over any time interval, and automatically adapt to the new optimal solution when the total bandwidth changes without centralized computation. Experiments clearly demonstrate the versatility of our approach.
- Abstract(参考訳): ウェブ・リフレッシュ・クローリングはウェブ・ページのキャッシュを新鮮に保つ問題である。
変更とイベントの要求という仮定で、resp。
それぞれのWebページが独立したPoissonプロセスに従っているため、最適なスケジューリングポリシーはAzarらによって導かれた。
本稿では,サイトマップやコンテンツ配信ネットワークなど,さまざまなタイプのWebpingなどのコンテンツ変更を示すサイド情報が利用可能となる,この問題の拡張について検討する。
このような情報をクローリングポリシーに組み込むことは困難である。
i) 信号は偽陽性事象や変化イベントの欠如にうるさい。
(II)クローラは,WebページからWebページへ異なるかもしれないサイド情報の品質に関わらず,Webページ上で公正なパフォーマンスを達成する必要がある。
スケーラブルなクローリングアルゴリズムを提案する。
一 軽度な前提の下で、最適な方法でうるさい側情報を使用すること。
(ii) 集中的な計算を行なわずに展開することができる。
三)任意の時間間隔で全帯域使用量をスパイクすることなく一定の総レートでWebページをクロールすることができ、集中計算なしで全帯域幅が変化した場合に、新しい最適解に自動的に適応することができる。
実験は、我々のアプローチの汎用性を明確に示している。
関連論文リスト
- AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - Online Learning for Adaptive Probing and Scheduling in Dense WLANs [4.585894579981477]
既存のネットワークスケジューリングソリューションは、スケジューリング決定が下される前に、瞬時リンクレートが完全に知られていると仮定する。
探索決定が適応的でない場合に性能を保証する近似アルゴリズムを開発する。
我々は、未知のリンクレート分布でオンライン設定にソリューションを拡張し、文脈帯域ベースのアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-12-27T19:12:17Z) - Optimistic No-regret Algorithms for Discrete Caching [6.182368229968862]
楽観的な学習の文脈において,ファイル全体を限られた容量でキャッシュに格納するという問題を体系的に検討する。
予測支援オンラインキャッシュのための普遍的な下位境界を提供し、様々なパフォーマンス・複雑さのトレードオフを持つ一連のポリシーを設計する。
我々の結果は、最近提案されたすべてのオンラインキャッシュポリシーを大幅に改善し、オラクルの予測を活用できないため、後悔する$O(sqrtT)しか提供できません。
論文 参考訳(メタデータ) (2022-08-15T09:18:41Z) - Intelligent Request Strategy Design in Recommender System [76.90734681369156]
我々は、Intelligent Request Strategy Design(IRSD)というエッジインテリジェンスの新しい学習タスクを構想する。
IRSDは、ユーザのリアルタイムな意図に基づいて、リクエスト挿入の適切なタイミングを決定することにより、ウォーターフォールRSの有効性を向上させることを目的としている。
我々は、アップリフトベースのOn-edge Smart Request Framework(AdaRequest)という、適応的な要求挿入戦略の新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-23T16:51:38Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - No-Regret Caching via Online Mirror Descent [0.0]
本稿では、リモートサーバからの検索コストを回避するため、ローカルキャッシュでリクエストを配信できるオンラインキャッシュ問題について検討する。
我々は, 後悔の限界は, 多様性比R/hで提供される要求プロセスの多様性に大きく依存していることを示す。
また,キャッシュがファイル全体を格納しなければならない場合,一部ではなく,無作為な保証を保ったランダムなラウンドリングスキームと OMD 戦略が結合可能であることも証明した。
論文 参考訳(メタデータ) (2021-01-29T13:56:51Z) - Online Algorithms for Estimating Change Rates of Web Pages [2.4923006485141284]
有限帯域の可用性とサーバの制限により、異なるページをクロールする頻度が制限される。
これらは、正確なページ変更率の知識を前提とするか、MLEのような非効率な手法を使って同じことを推定する。
ページ変更率をオンラインで推定するための3つの新しいスキームを提供する。
論文 参考訳(メタデータ) (2020-09-17T08:25:02Z) - Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。
コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。
本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T01:23:51Z) - Change Rate Estimation and Optimal Freshness in Web Page Crawling [2.4923006485141284]
有限帯域幅の可用性とサーバの制限は クローリング周波数にいくつかの制約を課します
理想的なクローリングレートは、ローカルキャッシュの鮮度を最大化するものである。
ページ変更率のオンライン推定のための2つの新しいスキームを提供する。
論文 参考訳(メタデータ) (2020-04-05T11:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。