Fugu-MT 論文翻訳(概要): LQoCo: Learning to Optimize Cache Capacity Overloading in Storage Systems

論文の概要: LQoCo: Learning to Optimize Cache Capacity Overloading in Storage Systems

arxiv url: http://arxiv.org/abs/2203.13678v1
Date: Mon, 21 Mar 2022 13:53:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-03 17:48:27.675044
Title: LQoCo: Learning to Optimize Cache Capacity Overloading in Storage Systems
Title（参考訳）: LQoCo: ストレージシステムのキャッシュ容量オーバーロードを最適化する学習
Authors: Ji Zhang, Xijun Li, Xiyao Zhou, Mingxuan Yuan, Zhuo Cheng, Keji Huang, Yifan Li
Abstract要約: キャッシュはストレージシステムにおけるハイパフォーマンスと安定したパフォーマンスを維持する上で重要な役割を担います。既存のルールベースのキャッシュ管理メソッドは、エンジニアの手動構成と相まって、頻繁にキャッシュをオーバーロードする。キャッシュ帯域幅を適応的に制御できるLQoCoという,軽量な学習ベースのキャッシュ帯域幅制御手法を提案する。
参考スコア（独自算出の注目度）: 17.49411699184401
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Cache plays an important role to maintain high and stable performance (i.e. high throughput, low tail latency and throughput jitter) in storage systems. Existing rule-based cache management methods, coupled with engineers' manual configurations, cannot meet ever-growing requirements of both time-varying workloads and complex storage systems, leading to frequent cache overloading. In this paper, we for the first time propose a light-weight learning-based cache bandwidth control technique, called \LQoCo which can adaptively control the cache bandwidth so as to effectively prevent cache overloading in storage systems. Extensive experiments with various workloads on real systems show that LQoCo, with its strong adaptability and fast learning ability, can adapt to various workloads to effectively control cache bandwidth, thereby significantly improving the storage performance (e.g. increasing the throughput by 10\%-20\% and reducing the throughput jitter and tail latency by 2X-6X and 1.5X-4X, respectively, compared with two representative rule-based methods).
Abstract（参考訳）: キャッシュは、ストレージシステムにおけるハイパフォーマンス(高スループット、低テールレイテンシ、スループットジッタ)を維持する上で重要な役割を果たす。既存のルールベースのキャッシュ管理メソッドは、エンジニアの手動設定と組み合わせることで、時間を要するワークロードと複雑なストレージシステムの両方の要求を常に満たせないため、キャッシュのオーバーロードが頻繁に発生する。本稿では,ストレージシステムにおけるキャッシュ過負荷を効果的に防止するために,キャッシュ帯域幅を適応的に制御できる軽量学習ベースのキャッシュ帯域幅制御技術である \LQoCo を提案する。実システム上での様々なワークロードによる大規模な実験により、LQoCoは強力な適応性と高速学習能力を持つため、様々なワークロードに適応してキャッシュ帯域を効果的に制御し、ストレージ性能を大幅に向上させることができる(例えば、スループットを10\%-20\%向上し、スループットジッタとテールレイテンシを2X-6Xと1.5X-4Xで削減するなど)。

関連論文リスト

LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
Accelerating LLM Inference Throughput via Asynchronous KV Cache Prefetching [12.993197799897532]
大規模言語モデル(LLM)は、高帯域メモリ(HBM)帯域幅の制約により、推論中に顕著なメモリバウンド特性を示す。本稿では,L2キャッシュ指向の非同期KVキャッシュプリフェッチ手法を提案する。
論文参考訳（メタデータ） (2025-04-08T09:17:35Z)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
CacheFocus: Dynamic Cache Re-Positioning for Efficient Retrieval-Augmented Generation [6.544043376474944]
LLM(Large Language Models)は、入力長と計算コストの制限により、様々な言語タスクを排他的に拡張する。既存のアプローチであるtextemdashは、これらの問題を部分的に緩和するが、しばしば追加のトレーニングを必要とするか、より長い入力でパフォーマンス劣化に悩まされる。 textbftextitCacheFocusは、長さの正規化を強化し、さらなるトレーニングを行わずに推論遅延を低減する方法である。
論文参考訳（メタデータ） (2025-02-16T12:33:16Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。 LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文参考訳（メタデータ） (2024-11-21T03:52:41Z)
EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models [19.510078997414606]
EPICは、大きな言語モデルのための位置非依存のコンテキストキャッシュを導入している。 EPICはTTFTの最大8倍のスループットと既存のシステムに対する7倍のスループットを提供する。
論文参考訳（メタデータ） (2024-10-20T08:42:29Z)
Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは、双方向並列化KVキャッシュ生成戦略を採用した、新しいKVキャッシュローダである。プレフィックスキャッシュ位置から保存されたKVキャッシュを同時に動的にロードし、ローカルGPU上でKVキャッシュを計算する。最大68.1%のTTFT(Time To First Token)削減を計算専用法と比較し、94.6%のTTFT削減をI/O専用法と比較する。
論文参考訳（メタデータ） (2024-10-04T01:11:09Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文参考訳（メタデータ） (2024-06-29T02:40:28Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
A Learning-Based Caching Mechanism for Edge Content Delivery [2.412158290827225]
5GネットワークとIoT(Internet of Things)の台頭により、ネットワークのエッジはますます拡大している。このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。 HR-Cacheは、ハザードレート(HR)順序付けの原則に基づく学習ベースのキャッシュフレームワークである。
論文参考訳（メタデータ） (2024-02-05T08:06:03Z)
CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving [31.766738294505767]
CacheGenは、大きな言語モデルのための高速なコンテキストローディングモジュールである。カスタムテンソルエンコーダを使用して、KVキャッシュをコンパクトなビットストリーム表現にエンコードする。 KVキャッシュの異なる部分の圧縮レベルを適用して、利用可能な帯域幅の変化に対処する。
論文参考訳（メタデータ） (2023-10-11T07:08:20Z)
Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文参考訳（メタデータ） (2020-05-19T01:23:51Z)
A Non-Stationary Bandit-Learning Approach to Energy-Efficient Femto-Caching with Rateless-Coded Transmission [98.47527781626161]
小セルネットワークにおける共同キャッシュと送信のためのリソース割り当て問題について検討する。次に、各放送ラウンドの送信電力レベルとともに、キャッシュからファイルを選択するという問題を定式化する。最先端の研究とは対照的に、提案手法は時変統計特性を持つネットワークに特に適している。
論文参考訳（メタデータ） (2020-04-13T09:07:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。