論文の概要: LQoCo: Learning to Optimize Cache Capacity Overloading in Storage
Systems
- arxiv url: http://arxiv.org/abs/2203.13678v1
- Date: Mon, 21 Mar 2022 13:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-03 17:48:27.675044
- Title: LQoCo: Learning to Optimize Cache Capacity Overloading in Storage
Systems
- Title(参考訳): LQoCo: ストレージシステムのキャッシュ容量オーバーロードを最適化する学習
- Authors: Ji Zhang, Xijun Li, Xiyao Zhou, Mingxuan Yuan, Zhuo Cheng, Keji Huang,
Yifan Li
- Abstract要約: キャッシュはストレージシステムにおけるハイパフォーマンスと安定したパフォーマンスを維持する上で重要な役割を担います。
既存のルールベースのキャッシュ管理メソッドは、エンジニアの手動構成と相まって、頻繁にキャッシュをオーバーロードする。
キャッシュ帯域幅を適応的に制御できるLQoCoという,軽量な学習ベースのキャッシュ帯域幅制御手法を提案する。
- 参考スコア(独自算出の注目度): 17.49411699184401
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cache plays an important role to maintain high and stable performance (i.e.
high throughput, low tail latency and throughput jitter) in storage systems.
Existing rule-based cache management methods, coupled with engineers' manual
configurations, cannot meet ever-growing requirements of both time-varying
workloads and complex storage systems, leading to frequent cache overloading.
In this paper, we for the first time propose a light-weight learning-based
cache bandwidth control technique, called \LQoCo which can adaptively control
the cache bandwidth so as to effectively prevent cache overloading in storage
systems. Extensive experiments with various workloads on real systems show that
LQoCo, with its strong adaptability and fast learning ability, can adapt to
various workloads to effectively control cache bandwidth, thereby significantly
improving the storage performance (e.g. increasing the throughput by 10\%-20\%
and reducing the throughput jitter and tail latency by 2X-6X and 1.5X-4X,
respectively, compared with two representative rule-based methods).
- Abstract(参考訳): キャッシュは、ストレージシステムにおけるハイパフォーマンス(高スループット、低テールレイテンシ、スループットジッタ)を維持する上で重要な役割を果たす。
既存のルールベースのキャッシュ管理メソッドは、エンジニアの手動設定と組み合わせることで、時間を要するワークロードと複雑なストレージシステムの両方の要求を常に満たせないため、キャッシュのオーバーロードが頻繁に発生する。
本稿では,ストレージシステムにおけるキャッシュ過負荷を効果的に防止するために,キャッシュ帯域幅を適応的に制御できる軽量学習ベースのキャッシュ帯域幅制御技術である \LQoCo を提案する。
実システム上での様々なワークロードによる大規模な実験により、LQoCoは強力な適応性と高速学習能力を持つため、様々なワークロードに適応してキャッシュ帯域を効果的に制御し、ストレージ性能を大幅に向上させることができる(例えば、スループットを10\%-20\%向上し、スループットジッタとテールレイテンシを2X-6Xと1.5X-4Xで削減するなど)。
関連論文リスト
- EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models [19.510078997414606]
EPICは、大きな言語モデルのための位置非依存のコンテキストキャッシュを導入している。
EPICはTTFTの最大8倍のスループットと既存のシステムに対する7倍のスループットを提供する。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは、双方向並列化KVキャッシュ生成戦略を採用した、新しいKVキャッシュローダである。
プレフィックスキャッシュ位置から保存されたKVキャッシュを同時に動的にロードし、ローカルGPU上でKVキャッシュを計算する。
最大68.1%のTTFT(Time To First Token)削減を計算専用法と比較し、94.6%のTTFT削減をI/O専用法と比較する。
論文 参考訳(メタデータ) (2024-10-04T01:11:09Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。
信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文 参考訳(メタデータ) (2024-06-29T02:40:28Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - A Learning-Based Caching Mechanism for Edge Content Delivery [2.412158290827225]
5GネットワークとIoT(Internet of Things)の台頭により、ネットワークのエッジはますます拡大している。
このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。
HR-Cacheは、ハザードレート(HR)順序付けの原則に基づく学習ベースのキャッシュフレームワークである。
論文 参考訳(メタデータ) (2024-02-05T08:06:03Z) - CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving [31.766738294505767]
CacheGenは、大きな言語モデルのための高速なコンテキストローディングモジュールである。
カスタムテンソルエンコーダを使用して、KVキャッシュをコンパクトなビットストリーム表現にエンコードする。
KVキャッシュの異なる部分の圧縮レベルを適用して、利用可能な帯域幅の変化に対処する。
論文 参考訳(メタデータ) (2023-10-11T07:08:20Z) - Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。
コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。
本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T01:23:51Z) - A Non-Stationary Bandit-Learning Approach to Energy-Efficient
Femto-Caching with Rateless-Coded Transmission [98.47527781626161]
小セルネットワークにおける共同キャッシュと送信のためのリソース割り当て問題について検討する。
次に、各放送ラウンドの送信電力レベルとともに、キャッシュからファイルを選択するという問題を定式化する。
最先端の研究とは対照的に、提案手法は時変統計特性を持つネットワークに特に適している。
論文 参考訳(メタデータ) (2020-04-13T09:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。