論文の概要: ScaleDL: Towards Scalable and Efficient Runtime Prediction for Distributed Deep Learning Workloads
- arxiv url: http://arxiv.org/abs/2511.04162v1
- Date: Thu, 06 Nov 2025 08:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.36018
- Title: ScaleDL: Towards Scalable and Efficient Runtime Prediction for Distributed Deep Learning Workloads
- Title(参考訳): ScaleDL: 分散ディープラーニングワークロードのためのスケーラブルで効率的なランタイム予測を目指す
- Authors: Xiaokai Wang, Shaoyuan Huang, Yuting Li, Xiaofei Wang,
- Abstract要約: ScaleDLはディープニューラルネットワーク(DNN)のための新しいランタイム予測フレームワーク
非線形層モデリングとグラフニューラルネットワーク(GNN)に基づく層間相互作用機構を組み合わせる。
ScaleDLは実行時の予測精度と一般化性を向上し,ベースラインモデルと比較して6$times$低いMREと5$times$低いRMSEを実現している。
- 参考スコア(独自算出の注目度): 14.876533021201539
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep neural networks (DNNs) form the cornerstone of modern AI services, supporting a wide range of applications, including autonomous driving, chatbots, and recommendation systems. As models increase in size and complexity, DNN workloads like training and inference tasks impose unprecedented demands on distributed computing resources, making the accurate prediction of runtime essential for optimizing development and resource allocation. Traditional methods rely on additive computational unit models, limiting their accuracy and generalizability. In contrast, graph-enhanced modeling improves performance but significantly increases data collection costs. Therefore, there is a critical need for a method that strikes a balance between accuracy, generalizability, and the costs of data collection. To address these challenges, we propose ScaleDL, a novel runtime prediction framework that combines nonlinear layer-wise modeling with graph neural network (GNN)-based cross-layer interaction mechanism, enabling accurate DNN runtime prediction and hierarchical generalizability across different network architectures. Additionally, we employ the D-optimal method to reduce data collection costs. Experiments on the workloads of five popular DNN models prove that ScaleDL enhances runtime prediction accuracy and generalizability, achieving 6$\times$ lower MRE and 5$\times$ lower RMSE compared to baseline models.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、自律運転、チャットボット、レコメンデーションシステムなど、幅広いアプリケーションをサポートする、現代のAIサービスの基盤を形成している。
モデルのサイズと複雑さが大きくなるにつれて、トレーニングや推論タスクのようなDNNのワークロードは分散コンピューティングリソースに対する前例のない要求を課し、開発とリソース割り当てを最適化するのに必要なランタイムの正確な予測を可能にします。
従来の手法は加法的な計算単位モデルに依存し、精度と一般化性を制限する。
対照的に、グラフ強化モデリングはパフォーマンスを向上させるが、データ収集コストを大幅に向上させる。
そのため、精度、一般化可能性、データ収集コストのバランスをとる方法が不可欠である。
これらの課題に対処するために、非線形層モデリングとグラフニューラルネットワーク(GNN)に基づく層間相互作用機構を組み合わせた新しいランタイム予測フレームワークであるScaleDLを提案し、異なるネットワークアーキテクチャ間の正確なDNNランタイム予測と階層的一般化を可能にする。
さらに,データ収集コストを削減するためにD-Optimal法を用いる。
一般的な5つのDNNモデルのワークロードの実験は、ScaleDLが実行時の予測精度と一般化性を高め、ベースラインモデルと比較して6$\times$低いMREと5$\times$低いRMSEを達成することを証明している。
関連論文リスト
- PERTINENCE: Input-based Opportunistic Neural Network Dynamic Execution [0.0]
PERTINENCEは入力機能の複雑さを分析するために設計された新しいオンライン手法である。
与えられた入力を処理するために、トレーニング済みのセットから最も適切なモデルを動的に選択する。
最大36%の演算で、より良く、または同等の精度を達成する。
論文 参考訳(メタデータ) (2025-07-02T13:22:05Z) - A Multi-Fidelity Graph U-Net Model for Accelerated Physics Simulations [1.2430809884830318]
本稿では,GNNモデルの性能向上のための多元性手法の利点を生かした,新しいGNNアーキテクチャであるMulti-Fidelity U-Netを提案する。
提案手法は精度とデータ要求において有意に優れた性能を示すことを示す。
また,提案アーキテクチャの高速バージョンであるMulti-Fidelity U-Net Liteを35%高速化し,精度を2~5%削減した。
論文 参考訳(メタデータ) (2024-12-19T20:09:38Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - A Training Rate and Survival Heuristic for Inference and Robustness Evaluation (TRASHFIRE) [1.622320874892682]
この研究は、特定のモデルハイパーパラメータが、相手の存在下でモデルの性能にどのように影響するかを理解し予測する問題に対処する。
提案手法では、サバイバルモデル、最悪の例、コスト認識分析を用いて、特定のモデル変更を正確かつ正確に拒否する。
提案手法を用いて、最も単純なホワイトボックス攻撃に対して、ResNetは絶望的に反対であることを示す。
論文 参考訳(メタデータ) (2024-01-24T19:12:37Z) - End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control [45.84205238554709]
本研究では, (e)NMPCの一部として最適性能を示すために, Koopman シュロゲートモデルの強化学習法を提案する。
エンドツーエンドトレーニングモデルは,(e)NMPCにおけるシステム識別を用いてトレーニングしたモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Online Evolutionary Neural Architecture Search for Multivariate
Non-Stationary Time Series Forecasting [72.89994745876086]
本研究は、オンラインニューロ進化に基づくニューラルアーキテクチャサーチ(ONE-NAS)アルゴリズムを提案する。
ONE-NASは、オンライン予測タスクのためにリカレントニューラルネットワーク(RNN)を自動設計し、動的にトレーニングする新しいニューラルネットワーク探索手法である。
その結果、ONE-NASは従来の統計時系列予測法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-20T22:25:47Z) - DNNAbacus: Toward Accurate Computational Cost Prediction for Deep Neural
Networks [0.9896984829010892]
本稿では,29の古典的ディープニューラルネットワークの計算資源要求を調査し,計算コストを予測するための正確なモデルを構築した。
ネットワーク表現のための新しいネットワーク構造行列を用いた軽量な予測手法DNNAbacusを提案する。
実験の結果, 平均相対誤差 (MRE) は時間に対して0.9%, メモリに関しては2.8%であった。
論文 参考訳(メタデータ) (2022-05-24T14:21:27Z) - Interpretable AI-based Large-scale 3D Pathloss Prediction Model for
enabling Emerging Self-Driving Networks [3.710841042000923]
本稿では,新しい鍵予測器を応用した機械学習モデルを提案する。
予測,一般化,計算性能の観点から各種MLアルゴリズムの性能を定量的に評価することにより,光グラディエントブースティングマシン(LightGBM)アルゴリズムが全体として他のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-01-30T19:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。