論文の概要: Change Rate Estimation and Optimal Freshness in Web Page Crawling
- arxiv url: http://arxiv.org/abs/2004.02167v1
- Date: Sun, 5 Apr 2020 11:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 13:19:20.494243
- Title: Change Rate Estimation and Optimal Freshness in Web Page Crawling
- Title(参考訳): Webページクローリングにおける変化速度推定と最適鮮度
- Authors: Konstantin Avrachenkov, Kishor Patil, Gugan Thoppe
- Abstract要約: 有限帯域幅の可用性とサーバの制限は クローリング周波数にいくつかの制約を課します
理想的なクローリングレートは、ローカルキャッシュの鮮度を最大化するものである。
ページ変更率のオンライン推定のための2つの新しいスキームを提供する。
- 参考スコア(独自算出の注目度): 2.4923006485141284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For providing quick and accurate results, a search engine maintains a local
snapshot of the entire web. And, to keep this local cache fresh, it employs a
crawler for tracking changes across various web pages. However, finite
bandwidth availability and server restrictions impose some constraints on the
crawling frequency. Consequently, the ideal crawling rates are the ones that
maximise the freshness of the local cache and also respect the above
constraints. Azar et al. 2018 recently proposed a tractable algorithm to solve
this optimisation problem. However, they assume the knowledge of the exact page
change rates, which is unrealistic in practice. We address this issue here.
Specifically, we provide two novel schemes for online estimation of page change
rates. Both schemes only need partial information about the page change
process, i.e., they only need to know if the page has changed or not since the
last crawled instance. For both these schemes, we prove convergence and, also,
derive their convergence rates. Finally, we provide some numerical experiments
to compare the performance of our proposed estimators with the existing ones
(e.g., MLE).
- Abstract(参考訳): 素早く正確な結果を提供するため、検索エンジンはウェブ全体のローカルスナップショットを維持する。
そして、このローカルキャッシュを新鮮に保つために、様々なウェブページにまたがる変更を追跡するクローラを使用している。
しかしながら、帯域幅の制限とサーバの制限は、クローリング周波数にいくつかの制約を課している。
したがって、理想的なクローリングレートは、ローカルキャッシュの鮮度を最大化し、上記の制約を尊重するものである。
Azarらは最近、この最適化問題を解決するためのトラクタブルアルゴリズムを提案した。
しかし、実際には現実的ではない正確なページ変更率の知識を想定している。
ここでこの問題に対処する。
具体的には,ページ変更率のオンライン推定のための2つの新しい手法を提案する。
どちらのスキームもページ変更プロセスに関する部分的な情報のみを必要とする。すなわち、ページが最後のクロールされたインスタンス以降に変更されたかどうかを知る必要がある。
これらのスキームの両方について、収束性を証明するとともに、収束率も導出する。
最後に,提案した推定器の性能と既存の推定器(MLEなど)を比較した数値実験を行った。
関連論文リスト
- Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。
我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文 参考訳(メタデータ) (2023-09-05T02:16:45Z) - Improved Online Conformal Prediction via Strongly Adaptive Online
Learning [86.4346936885507]
我々は、強い適応的後悔を最小限に抑える新しいオンライン共形予測手法を開発した。
提案手法は,すべての区間において,ほぼ最適に適応的な後悔を同時に達成できることを実証する。
実験により,本手法は実世界のタスクにおける既存の手法よりも,より優れたカバレッジと予測セットが得られることがわかった。
論文 参考訳(メタデータ) (2023-02-15T18:59:30Z) - MUSTACHE: Multi-Step-Ahead Predictions for Cache Eviction [0.709016563801433]
MUSTACHEは、既存のポリシーのように修正されるのではなく、観測されたメモリアクセス要求からロジックを学ぶ新しいページキャッシュ置換である。
本稿では,ページ要求予測問題をカテゴリー時系列予測タスクとして定式化する。
提案手法では,学習したページ要求予測器に次の$k$のページメモリ参照を問い合わせ,最適なB'el'adyの置換アルゴリズムをよりよく近似する。
論文 参考訳(メタデータ) (2022-11-03T23:10:21Z) - Online Caching with no Regret: Optimistic Learning via Recommendations [15.877673959068458]
ファイル要求の予測を含むFTRL(Follow-the-Regularized-Leader)フレームワークを構築した。
フレームワークを拡張して、多くが利用可能な場合に最適な要求予測器を学習し、利用します。
提案した楽観的な学習キャッシュポリシが,完全予測のためのサブゼロ性能損失(regret)を達成できることを実証する。
論文 参考訳(メタデータ) (2022-04-20T09:29:47Z) - Continual Test-Time Domain Adaptation [94.51284735268597]
テスト時ドメイン適応は、ソースデータを使用しずに、ソース事前訓練されたモデルをターゲットドメインに適応することを目的としている。
CoTTAは実装が容易で、市販の事前訓練モデルに簡単に組み込むことができる。
論文 参考訳(メタデータ) (2022-03-25T11:42:02Z) - Online Caching with Optimistic Learning [15.877673959068458]
本稿では,楽観的なオンライン学習のレンズを用いて,この問題に対処するための新しいアルゴリズムツールボックスを提案する。
我々は、時間平均予算制約の下で、固定サイズのキャッシュや弾性的なリースキャッシュを備えた二部ネットワークのためのオンラインキャッシュアルゴリズムを設計する。
提案した楽観的な学習キャッシュポリシは,完全予測に対してゼロ以下の性能損失(regret)を達成でき,任意のバッド予測に対してさえ,最も達成可能なリフレッシュバウンドである$O(sqrt T)を維持できることを示す。
論文 参考訳(メタデータ) (2022-02-22T00:04:30Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - Learning from Images: Proactive Caching with Parallel Convolutional
Neural Networks [94.85780721466816]
本稿では,プロアクティブキャッシングのための新しいフレームワークを提案する。
モデルベースの最適化とデータ駆動技術を組み合わせて、最適化問題をグレースケールのイメージに変換する。
数値計算の結果,提案手法は71.6%の計算時間を0.8%のコストで削減できることがわかった。
論文 参考訳(メタデータ) (2021-08-15T21:32:47Z) - Online Algorithms for Estimating Change Rates of Web Pages [2.4923006485141284]
有限帯域の可用性とサーバの制限により、異なるページをクロールする頻度が制限される。
これらは、正確なページ変更率の知識を前提とするか、MLEのような非効率な手法を使って同じことを推定する。
ページ変更率をオンラインで推定するための3つの新しいスキームを提供する。
論文 参考訳(メタデータ) (2020-09-17T08:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。