論文の概要: Taming the Tail: NoI Topology Synthesis for Mixed DL Workloads on Chiplet-Based Accelerators
- arxiv url: http://arxiv.org/abs/2510.24113v1
- Date: Tue, 28 Oct 2025 06:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.815326
- Title: Taming the Tail: NoI Topology Synthesis for Mixed DL Workloads on Chiplet-Based Accelerators
- Title(参考訳): チップレット型加速器を用いた混合DLワークロードのためのNoIトポロジー合成
- Authors: Arnav Shukla, Harsh Sharma, Srikant Bharadwaj, Vinayak Abrol, Sujay Deb,
- Abstract要約: CPU/GPUと新興技術(HBM/DRAM)の異種チップレットベースシステムによるスケール向上
しかし、このパッケージ上のデアグリゲーションはNetwork-on-Interposer(NoI)に遅延をもたらす
- 参考スコア(独自算出の注目度): 8.493759841403682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Heterogeneous chiplet-based systems improve scaling by disag-gregating CPUs/GPUs and emerging technologies (HBM/DRAM).However this on-package disaggregation introduces a latency inNetwork-on-Interposer(NoI). We observe that in modern large-modelinference, parameters and activations routinely move backand forth from HBM/DRAM, injecting large, bursty flows into theinterposer. These memory-driven transfers inflate tail latency andviolate Service Level Agreements (SLAs) across k-ary n-cube base-line NoI topologies. To address this gap we introduce an InterferenceScore (IS) that quantifies worst-case slowdown under contention.We then formulate NoI synthesis as a multi-objective optimization(MOO) problem. We develop PARL (Partition-Aware ReinforcementLearner), a topology generator that balances throughput, latency,and power. PARL-generated topologies reduce contention at the memory cut, meet SLAs, and cut worst-case slowdown to 1.2 times while maintaining competitive mean throughput relative to link-rich meshes. Overall, this reframes NoI design for heterogeneouschiplet accelerators with workload-aware objectives.
- Abstract(参考訳): 不均一チップレットベースのシステムは、CPU/GPUと新興技術(HBM/DRAM)を分離してスケールを改善する。
しかし、このパッケージ上のデアグリゲーションはNetwork-on-Interposer(NoI)に遅延をもたらす。
近年の大規模モデリングではパラメータやアクティベーションがHBM/DRAMから逆向きに動き、大きなバースト流をインターポーラに注入する。
これらのメモリ駆動転送は、k-ary n-cubeベースラインのNoIトポロジを越えて、テールレイテンシとSLA(Service Level Agreements)を増大させる。
このギャップに対処するために、競合下で最悪のケースのスローダウンを定量化するInterferenceScore (IS)を導入し、次に、多目的最適化(MOO)問題としてNoI合成を定式化する。
スループット,レイテンシ,電力のバランスをとるトポロジ生成器PARL(Partition-Aware ReinforcementLearner)を開発した。
PARLの生成したトポロジは、メモリカット時の競合を低減し、SLAを満たし、最悪のケースのスローダウンを1.2倍に削減し、リンクリッチメッシュに対する競合平均スループットを維持する。
全体として、これはワークロードを意識したヘテロジニアスチプルト加速器のためのNoI設計を再構成する。
関連論文リスト
- CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - COMPASS: A Compiler Framework for Resource-Constrained Crossbar-Array Based In-Memory Deep Learning Accelerators [6.172271429579593]
本稿では、資源制約付きクロスバーベース処理インメモリ(PIM)ディープニューラルネットワーク(DNN)アクセラレーターのためのコンパイラフレームワークを提案する。
本稿では,各パーティションをチップ上で高速化するために,各レイヤを分割する最適なパーティショニングを決定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-12T11:31:25Z) - When Less is More: Achieving Faster Convergence in Distributed Edge Machine Learning [0.0]
リソース制約のあるエッジデバイス上での分散機械学習(DML)は、現実世界のアプリケーションにとって大きな可能性を秘めている。
本稿では,エッジデバイス上での効率的なDMLのための新しい確率的フレームワークであるHermesを提案する。
実世界の異種資源制約環境に対する評価は,Hermesが最先端の手法に比べて高速な収束を実現することを示す。
論文 参考訳(メタデータ) (2024-10-27T16:17:03Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。