Fugu-MT 論文翻訳(概要): Change Rate Estimation and Optimal Freshness in Web Page Crawling

論文の概要: Change Rate Estimation and Optimal Freshness in Web Page Crawling

arxiv url: http://arxiv.org/abs/2004.02167v1
Date: Sun, 5 Apr 2020 11:48:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-16 13:19:20.494243
Title: Change Rate Estimation and Optimal Freshness in Web Page Crawling
Title（参考訳）: Webページクローリングにおける変化速度推定と最適鮮度
Authors: Konstantin Avrachenkov, Kishor Patil, Gugan Thoppe
Abstract要約: 有限帯域幅の可用性とサーバの制限はクローリング周波数にいくつかの制約を課します理想的なクローリングレートは、ローカルキャッシュの鮮度を最大化するものである。ページ変更率のオンライン推定のための2つの新しいスキームを提供する。
参考スコア（独自算出の注目度）: 2.4923006485141284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: For providing quick and accurate results, a search engine maintains a local snapshot of the entire web. And, to keep this local cache fresh, it employs a crawler for tracking changes across various web pages. However, finite bandwidth availability and server restrictions impose some constraints on the crawling frequency. Consequently, the ideal crawling rates are the ones that maximise the freshness of the local cache and also respect the above constraints. Azar et al. 2018 recently proposed a tractable algorithm to solve this optimisation problem. However, they assume the knowledge of the exact page change rates, which is unrealistic in practice. We address this issue here. Specifically, we provide two novel schemes for online estimation of page change rates. Both schemes only need partial information about the page change process, i.e., they only need to know if the page has changed or not since the last crawled instance. For both these schemes, we prove convergence and, also, derive their convergence rates. Finally, we provide some numerical experiments to compare the performance of our proposed estimators with the existing ones (e.g., MLE).
Abstract（参考訳）: 素早く正確な結果を提供するため、検索エンジンはウェブ全体のローカルスナップショットを維持する。そして、このローカルキャッシュを新鮮に保つために、様々なウェブページにまたがる変更を追跡するクローラを使用している。しかしながら、帯域幅の制限とサーバの制限は、クローリング周波数にいくつかの制約を課している。したがって、理想的なクローリングレートは、ローカルキャッシュの鮮度を最大化し、上記の制約を尊重するものである。 Azarらは最近、この最適化問題を解決するためのトラクタブルアルゴリズムを提案した。しかし、実際には現実的ではない正確なページ変更率の知識を想定している。ここでこの問題に対処する。具体的には,ページ変更率のオンライン推定のための2つの新しい手法を提案する。どちらのスキームもページ変更プロセスに関する部分的な情報のみを必要とする。すなわち、ページが最後のクロールされたインスタンス以降に変更されたかどうかを知る必要がある。これらのスキームの両方について、収束性を証明するとともに、収束率も導出する。最後に,提案した推定器の性能と既存の推定器(MLEなど)を比較した数値実験を行った。

関連論文リスト

Efficient and Optimal No-Regret Caching under Partial Observation [11.537072761243344]
我々は、過去の要求のごく一部しか観測されない、より制限的な環境でキャッシュ問題を調査する。本稿では,従来のオンライン学習アルゴリズムであるFollow-the-Perturbed-Leaderに基づいて,サブ線形後悔を伴うランダム化キャッシュポリシーを提案する。
論文参考訳（メタデータ） (2025-03-04T16:21:33Z)
Adaptive Semantic Prompt Caching with VectorQ [78.59891542553179]
ベクトル類似度メトリクスは、キャッシュ内の埋め込みプロンプトと最も近い隣人の類似度を定量化するために数値スコアを割り当てる。既存のシステムは、キャッシュヒットの原因となる類似度スコアが十分に高いかどうかを分類するために静的しきい値に依存している。この1つの大きさのしきい値が、異なる埋め込みで不十分であることを示す。埋め込み固有のしきい値領域を学習するためのしきい値収束を保証するオンラインフレームワークであるVectorQを提案する。
論文参考訳（メタデータ） (2025-02-06T04:16:20Z)
A Scalable Crawling Algorithm Utilizing Noisy Change-Indicating Signals [35.53487005950327]
提案手法は, (i) 雑音側情報を軽度な仮定で最適に利用するスケーラブルなクローリングアルゴリズム, (ii) 重心集中型計算を使わずにデプロイできる, (iii) 任意の時間間隔で全帯域使用量をスパイクすることなくWebページを一定の総レートでクロールできる,という手法である。
論文参考訳（メタデータ） (2025-02-04T15:55:10Z)
Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文参考訳（メタデータ） (2024-06-03T18:49:57Z)
Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文参考訳（メタデータ） (2023-09-05T02:16:45Z)
Improved Online Conformal Prediction via Strongly Adaptive Online Learning [86.4346936885507]
我々は、強い適応的後悔を最小限に抑える新しいオンライン共形予測手法を開発した。提案手法は,すべての区間において,ほぼ最適に適応的な後悔を同時に達成できることを実証する。実験により,本手法は実世界のタスクにおける既存の手法よりも,より優れたカバレッジと予測セットが得られることがわかった。
論文参考訳（メタデータ） (2023-02-15T18:59:30Z)
MUSTACHE: Multi-Step-Ahead Predictions for Cache Eviction [0.709016563801433]
MUSTACHEは、既存のポリシーのように修正されるのではなく、観測されたメモリアクセス要求からロジックを学ぶ新しいページキャッシュ置換である。本稿では,ページ要求予測問題をカテゴリー時系列予測タスクとして定式化する。提案手法では,学習したページ要求予測器に次の$k$のページメモリ参照を問い合わせ,最適なB'el'adyの置換アルゴリズムをよりよく近似する。
論文参考訳（メタデータ） (2022-11-03T23:10:21Z)
Online Caching with no Regret: Optimistic Learning via Recommendations [15.877673959068458]
ファイル要求の予測を含むFTRL(Follow-the-Regularized-Leader)フレームワークを構築した。フレームワークを拡張して、多くが利用可能な場合に最適な要求予測器を学習し、利用します。提案した楽観的な学習キャッシュポリシが,完全予測のためのサブゼロ性能損失(regret)を達成できることを実証する。
論文参考訳（メタデータ） (2022-04-20T09:29:47Z)
Continual Test-Time Domain Adaptation [94.51284735268597]
テスト時ドメイン適応は、ソースデータを使用しずに、ソース事前訓練されたモデルをターゲットドメインに適応することを目的としている。 CoTTAは実装が容易で、市販の事前訓練モデルに簡単に組み込むことができる。
論文参考訳（メタデータ） (2022-03-25T11:42:02Z)
Online Caching with Optimistic Learning [15.877673959068458]
本稿では,楽観的なオンライン学習のレンズを用いて,この問題に対処するための新しいアルゴリズムツールボックスを提案する。我々は、時間平均予算制約の下で、固定サイズのキャッシュや弾性的なリースキャッシュを備えた二部ネットワークのためのオンラインキャッシュアルゴリズムを設計する。提案した楽観的な学習キャッシュポリシは,完全予測に対してゼロ以下の性能損失(regret)を達成でき,任意のバッド予測に対してさえ,最も達成可能なリフレッシュバウンドである$O(sqrt T)を維持できることを示す。
論文参考訳（メタデータ） (2022-02-22T00:04:30Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)
Learning from Images: Proactive Caching with Parallel Convolutional Neural Networks [94.85780721466816]
本稿では,プロアクティブキャッシングのための新しいフレームワークを提案する。モデルベースの最適化とデータ駆動技術を組み合わせて、最適化問題をグレースケールのイメージに変換する。数値計算の結果,提案手法は71.6%の計算時間を0.8%のコストで削減できることがわかった。
論文参考訳（メタデータ） (2021-08-15T21:32:47Z)
Online Algorithms for Estimating Change Rates of Web Pages [2.4923006485141284]
有限帯域の可用性とサーバの制限により、異なるページをクロールする頻度が制限される。これらは、正確なページ変更率の知識を前提とするか、MLEのような非効率な手法を使って同じことを推定する。ページ変更率をオンラインで推定するための3つの新しいスキームを提供する。
論文参考訳（メタデータ） (2020-09-17T08:25:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。