論文の概要: Towards Easy and Realistic Network Infrastructure Testing for Large-scale Machine Learning
- arxiv url: http://arxiv.org/abs/2504.20854v1
- Date: Tue, 29 Apr 2025 15:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.96091
- Title: Towards Easy and Realistic Network Infrastructure Testing for Large-scale Machine Learning
- Title(参考訳): 大規模機械学習のための簡易かつ現実的なネットワークインフラストラクチャテストに向けて
- Authors: Jinsun Yoo, ChonLam Lao, Lianjie Cao, Bob Lantz, Minlan Yu, Tushar Krishna, Puneet Sharma,
- Abstract要約: 本稿では、実際のハードウェアネットワーク動作がMLワークロードのパフォーマンスに与える影響をキャプチャするテストフレームワークであるGenieの基礎を述べる。
Genieは、GPUをGPU通信にエミュレートするために、ハードウェアテストベッド上のCPU初期トラフィックを使用し、ASTRA-simシミュレータを適用して、ネットワークとMLワークロード間のインタラクションをモデル化する。
- 参考スコア(独自算出の注目度): 7.872558491633935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper lays the foundation for Genie, a testing framework that captures the impact of real hardware network behavior on ML workload performance, without requiring expensive GPUs. Genie uses CPU-initiated traffic over a hardware testbed to emulate GPU to GPU communication, and adapts the ASTRA-sim simulator to model interaction between the network and the ML workload.
- Abstract(参考訳): 本稿では、高価なGPUを必要とせずに、実際のハードウェアネットワーク動作がMLワークロードパフォーマンスに与える影響をキャプチャするテストフレームワークであるGenieの基礎を定めている。
Genieは、GPUをGPU通信にエミュレートするために、ハードウェアテストベッド上のCPU初期トラフィックを使用し、ASTRA-simシミュレータを適用して、ネットワークとMLワークロード間のインタラクションをモデル化する。
関連論文リスト
- RouteNet-Gauss: Hardware-Enhanced Network Modeling with Machine Learning [5.381741076460799]
本稿では、これらの課題に対処するために、テストベッドネットワークと機械学習(ML)モデルとの新たな統合であるRouteNet-Gaussを紹介する。
ハードウェアアクセラレータとしてテストベッドを使用することで、RouteNet-Gaussはトレーニングデータセットを高速に生成し、実世界の条件に対する忠実度の高いネットワークシナリオをシミュレートする。
実験結果から,RouteNet-Gaussは予測誤差を最大95%削減し,最新のDES法に比べて推論時間の488倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2025-01-15T15:00:11Z) - WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-11T02:48:00Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - Towards Universal Performance Modeling for Machine Learning Training on Multi-GPU Platforms [4.959530958049395]
我々は,コンピュータシステム上での機械学習(ML)ワークロードのトレーニングパフォーマンスを特徴付けるパイプラインを開発し,予測する。
私たちのパイプラインは、TransformerベースのNLPモデルなど、他のタイプのMLワークロードに一般化されています。
最速の埋め込みテーブルシャーディング構成を素早く選択するような洞察を生成することができる。
論文 参考訳(メタデータ) (2024-04-19T07:20:33Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Sim-to-Real Transfer in Multi-agent Reinforcement Networking for
Federated Edge Computing [11.3251009653699]
無線マルチホップエッジコンピューティングネットワーク上でのフェデレートラーニング(FL)は、デバイス上での分散ディープラーニングのパラダイムである。
本稿では,マルチホップFLシステムの高速プロトタイピング,sim-to-realコード,知識伝達を可能にする,高忠実なLinuxベースシミュレータであるFedEdgeシミュレータを提案する。
論文 参考訳(メタデータ) (2021-10-18T00:21:07Z) - SimNet: Computer Architecture Simulation using Machine Learning [3.7019798164954336]
この研究では、機械学習(ML)を使用して離散イベントシミュレーションを加速する共同作業について説明します。
提案した命令遅延予測器に基づいて,GPU加速並列シミュレータを実装した。
そのシミュレーション精度とスループットを、最先端シミュレータに対して検証し、評価する。
論文 参考訳(メタデータ) (2021-05-12T17:31:52Z) - Using Machine Learning at Scale in HPC Simulations with SmartSim: An
Application to Ocean Climate Modeling [52.77024349608834]
We demonstrate the first climate-scale, numerical ocean Simulations improve through distributed, online inference of Deep Neural Networks (DNN) using SmartSim。
SmartSimは、従来のHPCシミュレーションのためのオンライン分析と機械学習(ML)を可能にするためのライブラリです。
論文 参考訳(メタデータ) (2021-04-13T19:27:28Z) - Usage of Network Simulators in Machine-Learning-Assisted 5G/6G Networks [9.390329421385415]
機械学習と通信システムのギャップを埋めるためのネットワークシミュレータの役割を考案する。
本稿では,MLネットワークに適用される前に,MLモデルのトレーニング,テスト,検証を行うためのシミュレータのアーキテクチャ統合について述べる。
本稿では,ネットワークシミュレータのML支援通信への統合について,住宅Wi-Fiネットワークの概念実証テストベッド実装を通して述べる。
論文 参考訳(メタデータ) (2020-05-17T15:32:59Z) - Taurus: A Data Plane Architecture for Per-Packet ML [59.1343317736213]
本稿では,線数推論のためのデータプレーンであるTaurusの設計と実装について述べる。
Taurus スイッチ ASIC の評価は,Taurus がサーバベースコントロールプレーンよりも桁違いに高速に動作することを示す。
論文 参考訳(メタデータ) (2020-02-12T09:18:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。