論文の概要: Collective Communication Profiling of Modern-day Machine Learning Workloads
- arxiv url: http://arxiv.org/abs/2507.07117v1
- Date: Thu, 03 Jul 2025 20:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.12093
- Title: Collective Communication Profiling of Modern-day Machine Learning Workloads
- Title(参考訳): 現代の機械学習ワークロードの集合的コミュニケーションプロファイリング
- Authors: Jit Gupta, Andrew Li, Tarun Banka, Ariel Cohen, T. Sridhar, Raj Yavatkar,
- Abstract要約: 機械学習ジョブには、AllReduce、AllGather、Broadcastといったオペレーションを使った定期的なコミュニケーションが含まれる。
これらの操作は、高い帯域幅とバースト的なトラフィックパターンを生み出し、ネットワークの混雑とパケットロスにつながる可能性がある。
これらのパターンを分析することは必須であり、機械学習のワークロードの種類によってネットワークリソースのプロビジョニングに役立ちます。
- 参考スコア(独自算出の注目度): 2.2816873176308907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Learning jobs, carried out on large number of distributed high performance systems, involve periodic communication using operations like AllReduce, AllGather, and Broadcast. These operations may create high bandwidth and bursty traffic patterns, leading to network congestion and packet loss, thus impacting the performance of these jobs. Hence it is imperative to analyze these patterns, which can be helpful in provisioning network resources depending on the type of machine learning workloads. In this poster we carry out extensive analysis of the collective communication behavior seen in a wide variety of models (ex. DeepSeek, GPT, Llama, etc.) To achieve this we instrument Nvidia Collective Communication Library logging functionality for richer context about the collectives and workloads. We adjust configuration parameters that influence collective communication behavior, such as parallelism, number of nodes, and model type. This overview presents and discusses some of the results on the collective communication behavior for the open source DeepSeek V3 inferencing model, which includes operation type and count, transfer sizes per operation, and request size distribution. Our analysis shows that it makes sense to rethink current collective communication frameworks and network topologies so as to accommodate the effect of network anomalies on the mentioned workloads.
- Abstract(参考訳): 機械学習ジョブは、多数の分散ハイパフォーマンスシステムで実行され、AllReduce、AllGather、Broadcastといったオペレーションを使った定期的なコミュニケーションを含む。
これらの操作は、高い帯域幅とバースト的なトラフィックパターンを生み出し、ネットワークの混雑とパケットロスを引き起こし、これらのジョブのパフォーマンスに影響を及ぼす可能性がある。
したがって、これらのパターンを分析することは必須であり、機械学習のワークロードの種類によってネットワークリソースのプロビジョニングに役立ちます。
このポスターでは、さまざまなモデル(DeepSeek、GPT、Llamaなど)で見られる集団コミュニケーションの振る舞いを広範囲に分析し、これを実現するために、集合やワークロードに関するよりリッチなコンテキストのためのNvidia Collective Communication Libraryロギング機能を実装します。
並列性やノード数,モデルタイプなど,集合的なコミュニケーション行動に影響を与える構成パラメータを調整する。
本稿では,オープンソースのDeepSeek V3推論モデルの集合的通信挙動について概説する。
分析の結果,ネットワークの異常がワークロードに与える影響を考慮し,現在の集合通信フレームワークとネットワークトポロジを再考することは理にかなっていることがわかった。
関連論文リスト
- Identifying Super Spreaders in Multilayer Networks [0.6990493129893112]
本稿では,グラフニューラルネットワークを利用して,そのようなネットワーク内のスーパースプレッダを識別する手法を提案する。
この目的のために、数百のネットワークにまたがる情報拡散をシミュレートしてデータセットを構築する。
我々のモデルであるTopSpreadersNetworkは、関係に依存しないエンコーダとカスタムアグリゲーション層で構成されています。
論文 参考訳(メタデータ) (2025-05-27T10:14:14Z) - NetFlowGen: Leveraging Generative Pre-training for Network Traffic Dynamics [72.95483148058378]
我々は,NetFlowレコードからのトラフィックデータのみを用いて,トラフィックダイナミクスをキャプチャする汎用機械学習モデルを事前学習することを提案する。
ネットワーク特徴表現の統一,未ラベルの大規模トラフィックデータ量からの学習,DDoS攻撃検出における下流タスクのテストといった課題に対処する。
論文 参考訳(メタデータ) (2024-12-30T00:47:49Z) - AI Flow at the Network Edge [58.31090055138711]
AI Flowは、デバイス、エッジノード、クラウドサーバ間で利用可能な異種リソースを共同で活用することで、推論プロセスを合理化するフレームワークである。
この記事では、AI Flowのモチベーション、課題、原則を特定するためのポジションペーパーとして機能する。
論文 参考訳(メタデータ) (2024-11-19T12:51:17Z) - NetGPT: Generative Pretrained Transformer for Network Traffic [4.205009931131087]
ネットワークトラフィックの事前訓練モデルでは,大規模生データを用いてネットワークトラフィックの本質的特性を学習することができる。
本稿では,トラフィックの理解と生成のための生成事前学習モデルNetGPTを提案する。
論文 参考訳(メタデータ) (2023-04-19T09:04:30Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Communication Efficient Distributed Learning over Wireless Channels [35.90632878033643]
垂直分散学習は、複数の学習従事者が収集した局所的特徴を利用して、より良いグローバルモデルを形成する。
本研究では,各作業者が局所観測データの低次元埋め込みを個別に学習する階層型分散学習フレームワークを提案する。
提案した学習フレームワークは,学習者の生出力の結合を利用して,学習モデルとほぼ同一のモデル精度を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-09-04T19:41:21Z) - Bandit Sampling for Multiplex Networks [8.771092194928674]
多数のレイヤを持つ多重ネットワーク上でのスケーラブルな学習アルゴリズムを提案する。
オンライン学習アルゴリズムは、トレーニング中に関連する情報を持つレイヤのみを集約するように、関連する隣のレイヤをサンプリングする方法を学ぶ。
合成シナリオと実世界のシナリオの両方に関する実験結果を示す。
論文 参考訳(メタデータ) (2022-02-08T03:26:34Z) - Multi-agent Communication with Graph Information Bottleneck under
Limited Bandwidth (a position paper) [92.11330289225981]
多くの実世界のシナリオでは、通信は高価であり、マルチエージェントシステムの帯域幅には一定の制約がある。
通信資源を占有する冗長なメッセージは、情報的メッセージの送信をブロックし、パフォーマンスを損なう。
本稿では,通信グラフ内の構造情報とノード情報を効果的に圧縮し,帯域幅に制約のある設定に対処する,新しいマルチエージェント通信モジュールCommGIBを提案する。
論文 参考訳(メタデータ) (2021-12-20T07:53:44Z) - Scalable Perception-Action-Communication Loops with Convolutional and
Graph Neural Networks [208.15591625749272]
視覚に基づくグラフアグリゲーション・アンド・推論(VGAI)を用いた知覚-行動-コミュニケーションループの設計を提案する。
我々のフレームワークは、畳み込みとグラフニューラルネットワーク(CNN/GNN)のカスケードによって実装され、エージェントレベルの視覚知覚と特徴学習に対処する。
我々は、VGAIが他の分散コントローラに匹敵する性能を得ることを示した。
論文 参考訳(メタデータ) (2021-06-24T23:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。