論文の概要: A Study of Skews, Imbalances, and Pathological Conditions in LLM Inference Deployment on GPU Clusters detectable from DPU
- arxiv url: http://arxiv.org/abs/2509.18114v1
- Date: Tue, 09 Sep 2025 23:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-28 15:30:14.372019
- Title: A Study of Skews, Imbalances, and Pathological Conditions in LLM Inference Deployment on GPU Clusters detectable from DPU
- Title(参考訳): DPUから検出可能なGPUクラスタ上でのLPM推測展開におけるスキュー, 不均衡, 病理条件の検討
- Authors: Javed I. Khan an Henry Uwabor Moye,
- Abstract要約: 大規模トランスフォーマーベース言語モデル(LLM)における自己回帰推論は、実行効率に大きな課題をもたらす。
DPU支援フレームワークは、マルチノードテンソル並列推論における負荷不均衡のリアルタイム検出と緩和を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autoregressive inference in large transformer-based language models (LLMs) presents significant challenges for runtime efficiency, particularly during the decode phase where load imbalance across GPU shards can cause throughput degradation and latency spikes. A DPU-assisted framework leveraged by BlueField-3 Data Processing Units can enable real-time detection and mitigation of load imbalance in multi-node tensor-parallel inference. By offloading monitoring tasks to the DPU and analyzing GPU telemetry and inter-node communication patterns, the resulting system can provide actionable feedback to inference controllers and schedulers. The goal of this study is three-fold i) identify the reported skews/imbalances/pathological conditions that arise in muti-GPU execution of a) LLM tensor computing (both during training and inference), b) identify their impact on computational performance, and c) make a critical assessment if those can be tracked for potential mitigation from a DPU network.
- Abstract(参考訳): 大規模トランスフォーマーベース言語モデル(LLM)における自動回帰推論は、特にGPUシャード間の負荷不均衡がスループットの低下とレイテンシのスパイクを引き起こすデコードフェーズにおいて、実行時の効率に大きな課題を生じさせる。
BlueField-3データ処理ユニットが活用するDPU支援フレームワークは、マルチノードテンソル並列推論における負荷不均衡のリアルタイム検出と緩和を可能にする。
監視タスクをDPUにオフロードし、GPUテレメトリとノード間通信パターンを解析することにより、システムは推論コントローラやスケジューラに実行可能なフィードバックを提供することができる。
本研究の目的は, ミューティGPU実行時に発生するスキュー/アンバランス/病理条件を3倍に同定することである。
a) LLMテンソル演算(トレーニング中及び推論中の両方)
ロ 計算性能への影響を識別し、
c) DPUネットワークからの潜在的な緩和のためにそれらを追跡することができるかどうかを批判的に評価する。
関連論文リスト
- Integrated Sensing, Communication, and Computation for Over-the-Air Federated Edge Learning [52.904670248426626]
本稿では,統合されたセンサ,通信,計算機能を備えた空対空フェデレーションエッジ・ラーニング(Air-FEEL)システムについて検討する。
バッチサイズ制御とネットワークリソース割り当てを交互に最適化することにより、低複雑さI SCCアルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-08-21T02:46:46Z) - Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - eACGM: Non-instrumented Performance Tracing and Anomaly Detection towards Machine Learning Systems [4.745002208778503]
eACGMは、eBPFに基づいたフルスタックのAI/MLシステム監視フレームワークである。
eACGMはGPUやネットワーク通信層など、主要なハードウェアコンポーネントからリアルタイムのパフォーマンスデータを収集する。
論文 参考訳(メタデータ) (2025-05-25T09:25:39Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Robustness of deep learning classification to adversarial input on GPUs: asynchronous parallel accumulation is a source of vulnerability [4.054484966653432]
機械学習(ML)分類モデルの安全性と信頼性の重要な尺度は、小さな、ターゲットとする入力摂動に抵抗する能力である。
浮動小数点非連想性がGPU上での非同期並列プログラミングと結合し,誤分類を生じさせることを示す。
また, 機械レベルの詳細を考慮しない場合, 標準対向ロバスト性は4.6まで過大評価されることが示唆された。
論文 参考訳(メタデータ) (2025-03-21T14:19:45Z) - Impacts of floating-point non-associativity on reproducibility for HPC and deep learning applications [0.0]
浮動小数点非連想性に起因する並列プログラムにおける変数の実行は、アルゴリズムに大きな影響を与えることが知られている。
並列プログラミングモデルにおける浮動小数点非連想性の統計的性質について検討する。
我々は、ディープラーニングのためのGPUデプロイメントのコンテキスト内で、最近追加されたPyTorchの決定論的オプションについて検討する。
論文 参考訳(メタデータ) (2024-08-09T16:07:37Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。