論文の概要: Cold-RL: Learning Cache Eviction with Offline Reinforcement Learning for NGINX
- arxiv url: http://arxiv.org/abs/2508.12485v1
- Date: Sun, 17 Aug 2025 20:01:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.797977
- Title: Cold-RL: Learning Cache Eviction with Offline Reinforcement Learning for NGINX
- Title(参考訳): Cold-RL: NGINXのオフライン強化学習によるキャッシュエミッションの学習
- Authors: Aayush Gupta, Arpit Bhayani,
- Abstract要約: Cold-RLはNGINXの学習的排除ポリシーである。
これはLRUの強制経験パスをDeep Q-Networkに置き換える。
推論は2%未満のCPUオーバーヘッドを追加し、95%の消去遅延を予算内に保持する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web proxies such as NGINX commonly rely on least-recently-used (LRU) eviction, which is size agnostic and can thrash under periodic bursts and mixed object sizes. We introduce Cold-RL, a learned eviction policy for NGINX that replaces LRU's forced-expire path with a dueling Deep Q-Network served by an ONNX sidecar within a strict microsecond budget. On each eviction, Cold-RL samples the K least-recently-used objects, extracts six lightweight features (age, size, hit count, inter-arrival time, remaining TTL, and last origin RTT), and requests a bitmask of victims; a hard timeout of 500 microseconds triggers immediate fallback to native LRU. Policies are trained offline by replaying NGINX access logs through a cache simulator with a simple reward: a retained object earns one point if it is hit again before TTL expiry. We compare against LRU, LFU, size-based, adaptive LRU, and a hybrid baseline on two adversarial workloads. With a 25 MB cache, Cold-RL raises hit ratio from 0.1436 to 0.3538, a 146 percent improvement over the best classical baseline; at 100 MB, from 0.7530 to 0.8675, a 15 percent gain; and at 400 MB it matches classical methods (about 0.918). Inference adds less than 2 percent CPU overhead and keeps 95th percentile eviction latency within budget. To our knowledge, this is the first reinforcement learning eviction policy integrated into NGINX with strict SLOs.
- Abstract(参考訳): NGINXなどのWebプロキシは、通常、LRU(Mint-Recently- Useed)エミッションに依存しており、サイズは非依存であり、周期的なバーストと混合オブジェクトサイズでスラッシュする可能性がある。
我々は,厳格なマイクロ秒の予算でONNXサイドカーが提供するDep Q-Networkに,LRUの強制経験パスを置き換えたNGINXの学習的排除ポリシであるCold-RLを紹介する。
それぞれのエヴィジョンに基づいて、Cold-RLはKが最も頻繁に使われるオブジェクトをサンプリングし、6つの軽量な特徴(年齢、サイズ、ヒット数、地域間時間、TTL、そして最後の起源RTT)を抽出し、犠牲者のビットマスクを要求する。
ポリシは、キャッシュシミュレータを通じてNGINXアクセスログをリプレイすることで、オフラインでトレーニングされる。
我々は,LRU,LFU,サイズベース,適応型LRU,ハイブリッドベースラインの2つのワークロードの比較を行った。
25MBのキャッシュで、Cold-RLは0.1436から0.3538に増加し、最高の古典的ベースラインよりも146%改善され、100MBは0.7530から0.8675に、15%増し、400MBは古典的手法(0.918)に匹敵する。
推論は2%未満のCPUオーバーヘッドを追加し、95%の消去遅延を予算内に保持する。
私たちの知る限り、これは、厳格なSLOでNGINXに統合された最初の強化学習排除ポリシーです。
関連論文リスト
- REFN: A Reinforcement-Learning-From-Network Framework against 1-day/n-day Exploitations [4.675306665285266]
本稿では,Large Language Models (LLM) を訓練し,ネットワークフィルタを自律的に生成し,1日ないしn日のエクスプロイトを防止する新しいフレームワークであるREFNを紹介する。
REFNは、従来のヒューマンフィードバックではなく、オンラインネットワーク報酬によって駆動される強化学習(RL)を独自に採用することによって、スケーラビリティを保証する。
REFNは有効性(代替品よりも21.1%高い精度)、効率性(平均時間で3.65時間)、スケーラビリティ(簡単に10Kデバイスにスケールできる)を示す。
論文 参考訳(メタデータ) (2025-08-14T14:45:45Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [102.04125085041473]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - PentaRAG: Large-Scale Intelligent Knowledge Retrieval for Enterprise LLM Applications [5.4838799162708245]
我々はPentaRAGを紹介した。PentaRAGは5層モジュールで、各クエリを2つのインスタントキャッシュにルーティングする。
我々はPentaRAGがクエリ毎の平均GPU時間を0.248秒に削減したことを示す。
その結果、階層型ルーティング戦略は生産レベルのRAGシステムにおいて、鮮度、速度、効率性を同時に提供できることが示されている。
論文 参考訳(メタデータ) (2025-06-18T07:54:53Z) - MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models [53.36415620647177]
半構造化された空間は、M$M$の重みからN$の要素を戦略的に保持することで、有望なソリューションを提供する。
既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを引き起こす勾配駆動学習の2つのカテゴリに分類される。
MaskProという新しい線形空間確率的フレームワークを提案する。これは、M$連続重みごとに事前のカテゴリー分布を学習し、その後、この分布を活用して(N:M)スパーシリティを$N$-wayサンプリングを通じて生成することを目的としている。
論文 参考訳(メタデータ) (2025-06-15T15:02:59Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - Compressed Latent Replays for Lightweight Continual Learning on Spiking Neural Networks [45.53312220335389]
我々は、スパイキングニューラルネットワーク(SNN)のためのLR(Latent Replay)ベースのCLの最初のメモリ効率実装を紹介する。
LRは、新しいサンプルと以前に学習したデータの潜在表現を組み合わせることで、忘れを緩和する。
サンプルタスクとクラスインクリメンタルタスクを用いたハイデルベルクSHDデータセットの実験は、それぞれ92.5%と92%のTop-1精度に達した。
論文 参考訳(メタデータ) (2024-05-08T09:03:17Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - SUBP: Soft Uniform Block Pruning for 1xN Sparse CNNs Multithreading
Acceleration [16.846777341261436]
畳み込みニューラルネットワーク(CNN)の空間性の研究は、限られた資源を持つ環境下でモデルを圧縮・加速するために広範に行われている。
最近の研究は、密集した事前訓練された重量に基づいて1$times$Nスパースウェイトを選択し、微調整する必要がある。
本稿では,新しいEmphtextbfSoft textbfUniform textbfBlock textbfPruning (SUBP)アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-10T00:22:27Z) - On the Convergence of Federated Averaging under Partial Participation for Over-parameterized Neural Networks [13.2844023993979]
フェデレートラーニング(FL)は、ローカルデータを共有せずに複数のクライアントから機械学習モデルを協調的に作成するための分散パラダイムである。
本稿では,FedAvgが世界規模で世界規模で収束していることを示す。
論文 参考訳(メタデータ) (2023-10-09T07:56:56Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。