Fugu-MT 論文翻訳(概要): Efficient Unified Caching for Accelerating Heterogeneous AI Workloads

論文の概要: Efficient Unified Caching for Accelerating Heterogeneous AI Workloads

arxiv url: http://arxiv.org/abs/2506.12370v1
Date: Sat, 14 Jun 2025 06:36:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:45.99156
Title: Efficient Unified Caching for Accelerating Heterogeneous AI Workloads
Title（参考訳）: 不均一なAIワークロードを高速化するための効率的な統一キャッシング
Authors: Tianze Wang, Yifei Liu, Chen Chen, Pengfei Zuo, Jiawei Zhang, Qizhen Weng, Yin Chen, Zhenhua Han, Jieru Zhao, Quan Chen, Minyi Guo,
Abstract要約: 現代のAIクラスタは、データ前処理やトレーニング、推論など、さまざまなワークロードをホストしている。コード侵入の複雑さを回避し、キャッシュスペースの浪費を最小限にするため、すべてのワークロードで共有される統一キャッシュを維持することが望ましい。我々は,現代AIクラスタのための統合された高効率キャッシュIGTCacheを提案する。
参考スコア（独自算出の注目度）: 20.192896983810606
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern AI clusters, which host diverse workloads like data pre-processing, training and inference, often store the large-volume data in cloud storage and employ caching frameworks to facilitate remote data access. To avoid code-intrusion complexity and minimize cache space wastage, it is desirable to maintain a unified cache shared by all the workloads. However, existing cache management strategies, designed for specific workloads, struggle to handle the heterogeneous AI workloads in a cluster -- which usually exhibit heterogeneous access patterns and item storage granularities. In this paper, we propose IGTCache, a unified, high-efficacy cache for modern AI clusters. IGTCache leverages a hierarchical access abstraction, AccessStreamTree, to organize the recent data accesses in a tree structure, facilitating access pattern detection at various granularities. Using this abstraction, IGTCache applies hypothesis testing to categorize data access patterns as sequential, random, or skewed. Based on these detected access patterns and granularities, IGTCache tailors optimal cache management strategies including prefetching, eviction, and space allocation accordingly. Experimental results show that IGTCache increases the cache hit ratio by 55.6% over state-of-the-art caching frameworks, reducing the overall job completion time by 52.2%.
Abstract（参考訳）: データ前処理やトレーニング、推論といったさまざまなワークロードをホストする最新のAIクラスタは、大容量データをクラウドストレージに格納し、リモートデータアクセスを容易にするためにキャッシュフレームワークを使用することが多い。コード侵入の複雑さを回避し、キャッシュスペースの浪費を最小限にするため、すべてのワークロードで共有される統一キャッシュを維持することが望ましい。しかし、特定のワークロード用に設計された既存のキャッシュ管理戦略は、クラスタ内の異種AIワークロードを扱うのに苦労している。本稿では,現代AIクラスタのための統合された高効率キャッシュIGTCacheを提案する。 IGTCacheは階層的なアクセス抽象化であるAccessStreamTreeを活用して、ツリー構造における最近のデータアクセスを整理し、さまざまな粒度のアクセスパターン検出を容易にする。この抽象化を用いて、IGTCacheは仮説テストを適用して、データアクセスパターンをシーケンシャル、ランダム、スキュードに分類する。これらの検出されたアクセスパターンと粒度に基づいて、IGTCacheはプリフェッチ、エビテーション、スペース割り当てを含む最適なキャッシュ管理戦略をカスタマイズする。実験の結果、IGTCacheは最先端のキャッシュフレームワークに比べてキャッシュヒット率を55.6%向上し、全体のジョブ完了時間を52.2%削減した。

関連論文リスト

LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。 LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文参考訳（メタデータ） (2025-07-14T19:09:57Z)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。 LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文参考訳（メタデータ） (2024-11-21T03:52:41Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文参考訳（メタデータ） (2024-05-24T08:16:22Z)
MiniCache: KV Cache Compression in Depth Dimension for Large Language Models [48.03117580340151]
キーバリュー(KV)キャッシュは、以前に生成されたトークンのキー値状態を格納する。 KVキャッシュのサイズはシーケンス長とともに線形に増加し、長いコンテキスト入力と広範囲なシーケンス生成を必要とするアプリケーションの課題を提起する。レイヤ間のKVキャッシュを,新しい奥行きの観点から圧縮する,MiniCacheという,シンプルで効果的なアプローチを提案する。
論文参考訳（メタデータ） (2024-05-23T09:43:52Z)
A Learning-Based Caching Mechanism for Edge Content Delivery [2.412158290827225]
5GネットワークとIoT(Internet of Things)の台頭により、ネットワークのエッジはますます拡大している。このシフトは、特に限られたキャッシュストレージとエッジにおける多様な要求パターンのために、ユニークな課題をもたらす。 HR-Cacheは、ハザードレート(HR)順序付けの原則に基づく学習ベースのキャッシュフレームワークである。
論文参考訳（メタデータ） (2024-02-05T08:06:03Z)
Systematic Evaluation of Randomized Cache Designs against Cache Occupancy [11.018866935621045]
この研究は、ランダム化されたキャッシュに関する現在の文献において重要なギャップを埋める。ほとんどのランダム化されたキャッシュ設計は競合ベースの攻撃のみを防御し、キャッシュ占有を考慮しない。この結果から,ランダム化キャッシュ設計におけるキャッシュ占有側チャネルの検討の必要性が示唆された。
論文参考訳（メタデータ） (2023-10-08T14:06:06Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)
Reinforcement Learning for Caching with Space-Time Popularity Dynamics [61.55827760294755]
キャッシングは次世代ネットワークにおいて重要な役割を果たすと想定されている。コンテンツをインテリジェントにプリフェッチし、保存するためには、キャッシュノードは、何といつキャッシュするかを学ばなければならない。本章では、近似キャッシングポリシー設計のための多目的強化学習に基づくアプローチを提案する。
論文参考訳（メタデータ） (2020-05-19T01:23:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。