論文の概要: Automatic Operator-level Parallelism Planning for Distributed Deep Learning -- A Mixed-Integer Programming Approach
- arxiv url: http://arxiv.org/abs/2503.09357v1
- Date: Wed, 12 Mar 2025 13:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:33.490714
- Title: Automatic Operator-level Parallelism Planning for Distributed Deep Learning -- A Mixed-Integer Programming Approach
- Title(参考訳): 分散ディープラーニングのための演算子レベルの並列性自動計画 -- 混合整数プログラミングアプローチ
- Authors: Ruifeng She, Bowen Pang, Kai Li, Zehua Liu, Tao Zhong,
- Abstract要約: 本稿では,最適性と計算効率のバランスをとる二段階のソリューションフレームワークを提案する。
我々のフレームワークは、同等または優れた性能を実現し、同じメモリ制約下で計算バブルを半分に減らします。
このような能力は、最適な並列化戦略を探求するための貴重な研究ツールであり、大規模なAIデプロイメントのための実践的な産業ソリューションである。
- 参考スコア(独自算出の注目度): 6.449961842220686
- License:
- Abstract: As the artificial intelligence community advances into the era of large models with billions of parameters, distributed training and inference have become essential. While various parallelism strategies-data, model, sequence, and pipeline-have been successfully implemented for popular neural networks on main-stream hardware, optimizing the distributed deployment schedule requires extensive expertise and manual effort. Further more, while existing frameworks with most simple chain-like structures, they struggle with complex non-linear architectures. Mixture-of-experts and multi-modal models feature intricate MIMO and branch-rich topologies that require fine-grained operator-level parallelization beyond the capabilities of existing frameworks. We propose formulating parallelism planning as a scheduling optimization problem using mixed-integer programming. We propose a bi-level solution framework balancing optimality with computational efficiency, automatically generating effective distributed plans that capture both the heterogeneous structure of modern neural networks and the underlying hardware constraints. In experiments comparing against expert-designed strategies like DeepSeek's DualPipe, our framework achieves comparable or superior performance, reducing computational bubbles by half under the same memory constraints. The framework's versatility extends beyond throughput optimization to incorporate hardware utilization maximization, memory capacity constraints, and other considerations or potential strategies. Such capabilities position our solution as both a valuable research tool for exploring optimal parallelization strategies and a practical industrial solution for large-scale AI deployment.
- Abstract(参考訳): 人工知能コミュニティが数十億のパラメータを持つ大規模なモデルの時代へと進むにつれ、分散トレーニングと推論が不可欠になっている。
さまざまな並列処理戦略-データ、モデル、シーケンス、パイプライン-は、メインストリームハードウェア上で一般的なニューラルネットワーク用にうまく実装されているが、分散デプロイメントスケジュールを最適化するには、広範な専門知識と手作業が必要である。
さらに、最も単純なチェーンのような構造を持つ既存のフレームワークでは、複雑な非線形アーキテクチャに苦労しています。
エキスパートとマルチモーダルの混在モデルは複雑なMIMOとブランチリッチなトポロジを備えており、既存のフレームワークの能力を超えた細かい演算子レベルの並列化を必要とします。
混合整数プログラミングを用いたスケジューリング最適化問題として並列性計画の定式化を提案する。
本稿では、最適性と計算効率のバランスをとる二段階のソリューションフレームワークを提案し、現代のニューラルネットワークの不均一構造と基盤となるハードウェア制約の両方をキャプチャする効率的な分散プランを自動的に生成する。
DeepSeekのDualPipeのような専門家が設計した戦略と比較した実験では、我々のフレームワークは同等または優れた性能を実現し、同じメモリ制約下で計算バブルを半分に減らす。
フレームワークの汎用性はスループット最適化を超えて、ハードウェア利用の最大化、メモリ容量の制約、その他の考慮事項や潜在的な戦略を取り入れている。
このような能力は、最適な並列化戦略を探求するための貴重な研究ツールであり、大規模なAIデプロイメントのための実践的な産業ソリューションである。
関連論文リスト
- A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Learning to optimize with convergence guarantees using nonlinear system theory [0.4143603294943439]
本研究では,スムーズな目的関数に対するアルゴリズムの非制約パラメトリゼーションを提案する。
特に、私たちのフレームワークは自動微分ツールと直接互換性があります。
論文 参考訳(メタデータ) (2024-03-14T13:40:26Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Federated Multi-Level Optimization over Decentralized Networks [55.776919718214224]
エージェントが隣人としか通信できないネットワーク上での分散マルチレベル最適化の問題について検討する。
ネットワーク化されたエージェントが1つの時間スケールで異なるレベルの最適化問題を解くことができる新しいゴシップに基づく分散マルチレベル最適化アルゴリズムを提案する。
提案アルゴリズムは, ネットワークサイズと線形にスケーリングし, 各種アプリケーション上での最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-10T00:21:10Z) - Improving Automatic Parallel Training via Balanced Memory Workload
Optimization [36.87527680184956]
トランスフォーマーモデルは、様々なアプリケーションドメインで最先端のパフォーマンスを達成するための主要なアプローチとして現れています。
本稿では,複数の並列性を持つ次元を統合し,最も効率的なハイブリッド並列性戦略を自動的に識別する新しいシステムフレームワークであるGalvatron-BMWを提案する。
異なるTransformerモデルを用いた評価では,Galvatron-BMWがGPUメモリ制約の異なる分散トレーニングを自動化できることが示されている。
論文 参考訳(メタデータ) (2023-07-05T05:28:38Z) - ES-Based Jacobian Enables Faster Bilevel Optimization [53.675623215542515]
バイレベル最適化(BO)は多くの現代の機械学習問題を解決する強力なツールとして生まれてきた。
既存の勾配法では、ヤコビアンあるいはヘッセンベクトル計算による二階微分近似が必要となる。
本稿では,進化戦略(ES)に基づく新しいBOアルゴリズムを提案し,BOの過勾配における応答ヤコビ行列を近似する。
論文 参考訳(メタデータ) (2021-10-13T19:36:50Z) - Collaborative Multidisciplinary Design Optimization with Neural Networks [1.2691047660244335]
協調最適化の場合、二項分類の興味深い問題を解くことにより、より高速で信頼性の高い収束が得られることを示す。
本稿では,非対称な損失関数,リプシッツ連続性を保証する構造,基本距離関数の性質を尊重する正規化を含むニューラルネットワークのトレーニングを提案する。
論文 参考訳(メタデータ) (2021-06-11T00:03:47Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。