論文の概要: Efficient Unified Caching for Accelerating Heterogeneous AI Workloads
- arxiv url: http://arxiv.org/abs/2506.12370v1
- Date: Sat, 14 Jun 2025 06:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.99156
- Title: Efficient Unified Caching for Accelerating Heterogeneous AI Workloads
- Title(参考訳): 不均一なAIワークロードを高速化するための効率的な統一キャッシング
- Authors: Tianze Wang, Yifei Liu, Chen Chen, Pengfei Zuo, Jiawei Zhang, Qizhen Weng, Yin Chen, Zhenhua Han, Jieru Zhao, Quan Chen, Minyi Guo,
- Abstract要約: 現代のAIクラスタは、データ前処理やトレーニング、推論など、さまざまなワークロードをホストしている。
コード侵入の複雑さを回避し、キャッシュスペースの浪費を最小限にするため、すべてのワークロードで共有される統一キャッシュを維持することが望ましい。
我々は,現代AIクラスタのための統合された高効率キャッシュIGTCacheを提案する。
- 参考スコア(独自算出の注目度): 20.192896983810606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern AI clusters, which host diverse workloads like data pre-processing, training and inference, often store the large-volume data in cloud storage and employ caching frameworks to facilitate remote data access. To avoid code-intrusion complexity and minimize cache space wastage, it is desirable to maintain a unified cache shared by all the workloads. However, existing cache management strategies, designed for specific workloads, struggle to handle the heterogeneous AI workloads in a cluster -- which usually exhibit heterogeneous access patterns and item storage granularities. In this paper, we propose IGTCache, a unified, high-efficacy cache for modern AI clusters. IGTCache leverages a hierarchical access abstraction, AccessStreamTree, to organize the recent data accesses in a tree structure, facilitating access pattern detection at various granularities. Using this abstraction, IGTCache applies hypothesis testing to categorize data access patterns as sequential, random, or skewed. Based on these detected access patterns and granularities, IGTCache tailors optimal cache management strategies including prefetching, eviction, and space allocation accordingly. Experimental results show that IGTCache increases the cache hit ratio by 55.6% over state-of-the-art caching frameworks, reducing the overall job completion time by 52.2%.
- Abstract(参考訳): データ前処理やトレーニング、推論といったさまざまなワークロードをホストする最新のAIクラスタは、大容量データをクラウドストレージに格納し、リモートデータアクセスを容易にするためにキャッシュフレームワークを使用することが多い。
コード侵入の複雑さを回避し、キャッシュスペースの浪費を最小限にするため、すべてのワークロードで共有される統一キャッシュを維持することが望ましい。
しかし、特定のワークロード用に設計された既存のキャッシュ管理戦略は、クラスタ内の異種AIワークロードを扱うのに苦労している。
本稿では,現代AIクラスタのための統合された高効率キャッシュIGTCacheを提案する。
IGTCacheは階層的なアクセス抽象化であるAccessStreamTreeを活用して、ツリー構造における最近のデータアクセスを整理し、さまざまな粒度のアクセスパターン検出を容易にする。
この抽象化を用いて、IGTCacheは仮説テストを適用して、データアクセスパターンをシーケンシャル、ランダム、スキュードに分類する。
これらの検出されたアクセスパターンと粒度に基づいて、IGTCacheはプリフェッチ、エビテーション、スペース割り当てを含む最適なキャッシュ管理戦略をカスタマイズする。
実験の結果、IGTCacheは最先端のキャッシュフレームワークに比べてキャッシュヒット率を55.6%向上し、全体のジョブ完了時間を52.2%削減した。
関連論文リスト
- QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。
評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文 参考訳(メタデータ) (2024-05-24T08:16:22Z) - MiniCache: KV Cache Compression in Depth Dimension for Large Language Models [48.03117580340151]
キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。
KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。
レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T09:43:52Z) - A Learning-Based Caching Mechanism for Edge Content Delivery [2.412158290827225]
5GネットワークとIoT(Internet of Things)の台頭により、ネットワークのエッジはますます拡大している。
このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。
HR-Cacheは、ハザードレート(HR)順序付けの原則に基づく学習ベースのキャッシュフレームワークである。
論文 参考訳(メタデータ) (2024-02-05T08:06:03Z) - Systematic Evaluation of Randomized Cache Designs against Cache Occupancy [11.018866935621045]
この研究は、ランダム化されたキャッシュに関する現在の文献において重要なギャップを埋める。
ほとんどのランダム化されたキャッシュ設計は競合ベースの攻撃のみを防御し、キャッシュ占有を考慮しない。
この結果から,ランダム化キャッシュ設計におけるキャッシュ占有側チャネルの検討の必要性が示唆された。
論文 参考訳(メタデータ) (2023-10-08T14:06:06Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。
コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。
本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T01:23:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。