論文の概要: SCION: Size-aware Policy Orchestration for Nonstationary Object Caches (Long Paper Version)
- arxiv url: http://arxiv.org/abs/2605.01055v1
- Date: Fri, 27 Mar 2026 23:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.48996
- Title: SCION: Size-aware Policy Orchestration for Nonstationary Object Caches (Long Paper Version)
- Title(参考訳): SCION:非定常オブジェクトキャッシュのためのサイズ対応ポリシーオーケストレーション(Long Paper Version)
- Authors: Qizhi Wang,
- Abstract要約: オブジェクトキャッシュはクラウドとエッジサービスを支えるが、運用ワークロードは不均一である。
SIEVEやS3-FIFOといった最近のシンプルな非MLポリシーは強力なベースラインを設定している。
SCIONは、デプロイ可能なキャッシュポリシーの小さなセットの中から選択する軽量なポリシーオーケストレーションフレームワークである。
- 参考スコア(独自算出の注目度): 0.5414847001704249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object caches underpin cloud and edge services, but production workloads are heterogeneous, nonstationary, and throughput-constrained. Recent simple non-ML policies such as SIEVE and S3-FIFO set a strong baseline, so any learned method must be overhead-aware, robust under drift, and competitive with strong experts. We present SCION, a lightweight policy-orchestration framework that selects among a small set of deployable cache policies using a tiny workload fingerprint computed off the critical path. Our prototype, AUTO, uses short-prefix statistics of object size, cacheability, reuse, and cache size, then applies an offline-trained linear selector to choose among GDSF, S3-FIFO, SIEVE, LHD, W-TinyLFU-AV, and DynamicAdaptiveClimb; a simpler SCION-P90 variant uses only a p90 threshold. In a CPU-only, trace-driven evaluation on 30 public object-cache traces and a separate HR-Cache simulator subset, AUTO improves cacheable-only object miss ratio over SIEVE on a majority of workloads, stays close to the best single expert on average, enables explicit OMR/BMR tradeoff selection, and remains competitive on byte miss ratio. Under a fast-policy budget, AUTO-fast achieves lower cost than the best fixed fast policy. SCION reduces regime-mismatch risk while keeping the hot path unchanged.
- Abstract(参考訳): オブジェクトキャッシュはクラウドとエッジサービスを支えるが、運用ワークロードは不均一、非定常、スループットの制約がある。
SIEVEやS3-FIFOといった最近のシンプルな非MLポリシーは、強力なベースラインを設定しているため、学習方法はオーバーヘッドを認識し、ドリフト下で堅牢で、強力な専門家と競争しなければならない。
SCIONは軽量なポリシオーケストレーションフレームワークであり、クリティカルパスから計算された小さなワークロード指紋を使用して、デプロイ可能なキャッシュポリシーの小さなセットの中から選択する。
我々のプロトタイプであるAUTOは、オブジェクトサイズ、キャッシュ可能性、再利用性、キャッシュサイズに関する短期修正統計を使い、オフラインでトレーニングされた線形セレクタを適用して、GDSF、S3-FIFO、SIEVE、LHD、W-TinyLFU-AV、DynamicAdaptiveClimbを選択します。
30のパブリックオブジェクトキャッシュトレースと別のHRキャッシュシミュレーターサブセットに対するCPUのみのトレース駆動評価では、AUTOは、ほとんどのワークロードにおいてSIEVEよりもキャッシュ可能な唯一のオブジェクトミス比を改善し、平均して最高のシングルエキスパートに近づき、明示的なOMR/BMRトレードオフ選択を可能にし、バイトミス比で競争力を維持する。
高速な政治予算の下では、AUTO-fastは最高の固定された高速政策よりもコストが低い。
SCIONは、ホットパスを一定に保ちながら、レギュラーミスマッチリスクを低減する。
関連論文リスト
- Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing [29.913403615975174]
高いスループットでトランスフォーマー言語モデルを実行するには、冗長な計算を避けるためにキーバリュー(KV)をキャッシュする必要がある。
KVキャッシュのメモリフットプリントは著しく、サービスコストに大きな影響を与えます。
本稿では,ランダムな層間注意(ランダムな層間注意,ランダムな層間注意,ランダムな層間注意)を提案する。
論文 参考訳(メタデータ) (2026-04-03T14:56:17Z) - Taming the Fragility of KV Cache Eviction in LLM Inference [36.547639886708026]
本稿では,最悪の場合のリスクを抑える2段階の線形時間アプローチを提案する。
本手法は,20%のキャッシュサイズで最強のベースラインに対して,それぞれ2.3xと4.3xの生成品質損失を低減させる。
論文 参考訳(メタデータ) (2025-10-15T09:18:58Z) - Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。
提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文 参考訳(メタデータ) (2025-10-08T18:24:59Z) - Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - A Learning-Based Caching Mechanism for Edge Content Delivery [2.412158290827225]
5GネットワークとIoT(Internet of Things)の台頭により、ネットワークのエッジはますます拡大している。
このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。
HR-Cacheは、ハザードレート(HR)順序付けの原則に基づく学習ベースのキャッシュフレームワークである。
論文 参考訳(メタデータ) (2024-02-05T08:06:03Z) - Structure-aware reinforcement learning for node-overload protection in
mobile edge computing [3.3865605512957457]
本研究は,エッジノードの過負荷を防止するための適応型入出力制御ポリシーを提案する。
このフレームワークは,ノードオーバーロード保護問題に対して,割引価格設定で動作するように拡張する。
実験により, SALMUTにより得られた全割引コストは, 最先端の深部RLアルゴリズムに類似していることが判明した。
論文 参考訳(メタデータ) (2021-06-29T18:11:41Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。