論文の概要: DCO: Dynamic Cache Orchestration for LLM Accelerators through Predictive Management
- arxiv url: http://arxiv.org/abs/2512.07312v1
- Date: Mon, 08 Dec 2025 08:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.798744
- Title: DCO: Dynamic Cache Orchestration for LLM Accelerators through Predictive Management
- Title(参考訳): DCO: 予測管理によるLCM加速器の動的キャッシュオーケストレーション
- Authors: Zhongchun Zhou, Chengtao Lai, Yuhang Gu, Wei Zhang,
- Abstract要約: 本稿では,共有システムレベルのキャッシュとアプリケーション対応管理ポリシを備えたマルチコアAIアクセラレータを提案する。
従来のキャッシュアーキテクチャと比較すると,パフォーマンスの大幅な向上(最大1.80倍の高速化)が観察できる。
我々の研究は、将来のAIアクセラレータシステムの開発を支援する共有キャッシュ設計の可能性を探るものである。
- 参考スコア(独自算出の注目度): 2.5993532871616027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid adoption of large language models (LLMs) is pushing AI accelerators toward increasingly powerful and specialized designs. Instead of further complicating software development with deeply hierarchical scratchpad memories (SPMs) and their asynchronous management, we investigate the opposite point of the design spectrum: a multi-core AI accelerator equipped with a shared system-level cache and application-aware management policies, which keeps the programming effort modest. Our approach exploits dataflow information available in the software stack to guide cache replacement (including dead-block prediction), in concert with bypass decisions and mechanisms that alleviate cache thrashing. We assess the proposal using a cycle-accurate simulator and observe substantial performance gains (up to 1.80x speedup) compared with conventional cache architectures. In addition, we build and validate an analytical model that takes into account the actual overlapping behaviors to extend the measurement results of our policies to real-world larger-scale workloads. Experiment results show that when functioning together, our bypassing and thrashing mitigation strategies can handle scenarios both with and without inter-core data sharing and achieve remarkable speedups. Finally, we implement the design in RTL and the area of our design is $\mathbf{0.064mm^2}$ with 15nm process, which can run at 2 GHz clock frequency. Our findings explore the potential of the shared cache design to assist the development of future AI accelerator systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な採用は、AIアクセラレーターをますます強力で専門的な設計へと押し上げている。
深い階層的なスクラッチパッドメモリ(SPM)とその非同期管理でソフトウェア開発をさらに複雑にする代わりに、設計スペクトルの反対の点を調査する: 共有システムレベルのキャッシュとアプリケーション対応管理ポリシーを備えたマルチコアAIアクセラレーターで、プログラミングの労力を控えめに保ちます。
当社のアプローチでは,キャッシュスラッシングを緩和するバイパス決定や機構と合わせて,キャッシュ置換(デッドブロック予測を含む)のガイドとして,ソフトウェアスタックで利用可能なデータフロー情報を活用する。
サイクル精度シミュレータを用いて提案手法の評価を行い,従来のキャッシュアーキテクチャと比較して性能向上(最大1.80倍の高速化)を観測した。
さらに、実際の重なり合う振る舞いを考慮に入れた分析モデルを構築し、実際の大規模ワークロードにポリシーの測定結果を拡張します。
実験結果から,一緒に機能する場合には,コア間のデータ共有を必要とせずにシナリオを処理し,大幅なスピードアップを実現することができることがわかった。
最後に RTL で設計を実装し,設計領域は 15nm プロセスで 2 GHz のクロック周波数で動作可能な $\mathbf{0.064mm^2}$ である。
我々の研究は、将来のAIアクセラレータシステムの開発を支援する共有キャッシュ設計の可能性を探るものである。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - Understanding and Optimizing Multi-Stage AI Inference Pipelines [11.254219071373319]
HERMESは不均一な多段LPM推論実行シミュレータである。
HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。
我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
論文 参考訳(メタデータ) (2025-04-14T00:29:49Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Automatic Generation of Fast and Accurate Performance Models for Deep Neural Network Accelerators [33.18173790144853]
本稿では,Deep Neural Networks (DNN) のレイテンシを正確に推定する高速性能モデルのための自動生成手法を提案する。
我々は、Gemmini、UltraTrail、Plastinine由来、パラメータ化可能なシストリックアレイなどの代表的DNNアクセラレータをモデル化した。
ループカーネルを154回繰り返して評価し,419億命令のパフォーマンスを推定し,大幅な高速化を実現した。
論文 参考訳(メタデータ) (2024-09-13T07:27:55Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Union: A Unified HW-SW Co-Design Ecosystem in MLIR for Evaluating Tensor
Operations on Spatial Accelerators [4.055002321981825]
We present a HW-SW co-design ecosystem for space accelerators called Union。
我々のフレームワークは、いくつかのアクセラレータコストモデル上で、異なるアルゴリズムとそのマッピングを探索することができる。
コミュニティにとってのユニオンの価値をいくつかのケーススタディで実証する。
論文 参考訳(メタデータ) (2021-09-15T16:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。