論文の概要: NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning
- arxiv url: http://arxiv.org/abs/2603.06798v1
- Date: Fri, 06 Mar 2026 19:02:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.114152
- Title: NEST: Network- and Memory-Aware Device Placement For Distributed Deep Learning
- Title(参考訳): NEST: 分散ディープラーニングのためのネットワークおよびメモリ対応デバイス配置
- Authors: Irene Wang, Vishnu Varma Venkata, Arvind Krishnamurthy, Divya Mahajan,
- Abstract要約: NESTは、ネットワーク、コンピュート、メモリ対応デバイス配置フレームワークである。
モデル並列性、トポロジモデリング、構造化動的プログラミングによるメモリ実現性を統合する。
最大2.43倍のスループット、メモリ効率の向上、最先端のベースラインでのスケーラビリティの向上を実現している。
- 参考スコア(独自算出の注目度): 4.747614591250017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing scale of deep learning demands distributed training frameworks that jointly reason about parallelism, memory, and network topology. Prior works often rely on heuristic or topology-agnostic search, handling communication and memory separately. Without per-device memory awareness, these methods typically ensure feasibility post hoc by sharding parameters and activations across many devices, increasing synchronization, inflating communication, and underutilizing compute-limiting scalability and efficiency on real datacenter networks. We present NEST, a network-, compute-, and memory-aware device placement framework that unifies model parallelism, topology modeling, and memory feasibility via structured dynamic programming. NEST's DP operates on operator graphs with tensor and expert parallel configurations, explicit allreduce latencies across hierarchical or arbitrary networks, and memory/compute profiles. By factoring parallelism across tensor, pipeline, data, and expert dimensions, NEST defines a principled search space for hybrid strategies while jointly optimizing co-location, network latency, and memory feasibility. Evaluations across diverse hardware and networks show NEST achieves up to 2.43 times higher throughput, better memory efficiency, and improved scalability over state-of-the-art baselines, providing a foundation for co-designing parallelization strategies and datacenter interconnects for next-generation AI infrastructure. The source code of NEST is available at: https://github.com/scai-tech/Nest
- Abstract(参考訳): ディープラーニングの規模が拡大するにつれ、並列性、メモリ、ネットワークトポロジについて共同で推論する分散トレーニングフレームワークが求められている。
以前の作品は、しばしばヒューリスティックまたはトポロジーに依存しない検索に依存し、コミュニケーションとメモリを別々に扱う。
デバイス毎のメモリ認識がなければ、これらの方法は一般的に、多くのデバイスでパラメータやアクティベーションをシャーディングし、同期性を高め、通信を膨らませ、実際のデータセンタネットワーク上での計算制限のスケーラビリティと効率を弱めることで、ホック後の実現性を保証する。
NESTは、モデル並列性、トポロジーモデリング、構造化動的プログラミングによるメモリ実現性を統一する、ネットワーク、計算、メモリ対応デバイス配置フレームワークである。
NESTのDPは、テンソルと専門家の並列構成を持つ演算子グラフで動作し、階層的または任意のネットワークにわたる明示的なアロケートレイテンシ、メモリ/計算プロファイルで動作する。
NESTはテンソル、パイプライン、データ、専門家の次元をまたいで並列性を決定することで、コロケーション、ネットワークレイテンシ、メモリ実現性を共同で最適化しながら、ハイブリッド戦略のための原則付き検索空間を定義する。
さまざまなハードウェアやネットワークにおける評価によると、NESTはスループット最大2.43倍のスループット、メモリ効率の向上、最先端のベースラインに対するスケーラビリティの向上を実現している。
NESTのソースコードは、https://github.com/scai-tech/Nest.comで公開されている。
関連論文リスト
- Model Parallelism With Subnetwork Data Parallelism [21.914077370806016]
大規模な大規模ニューラルネットワークの事前トレーニングは、アクセラレータに大量のメモリ要求を課し、しばしば高価な通信を必要とする。
本稿では,分散トレーニングフレームワークであるSubnetwork Data Parallelism(SDP)を紹介する。
本研究では,不偏勾配を維持するために下位段階のみに空間性を適用した後方マスキングと,前方パスのパラメータを除去してより高効率なゲインを実現する前方マスキングの2つの相補的なマスキング方式について検討する。
論文 参考訳(メタデータ) (2025-07-11T21:25:11Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Integrated Hardware Architecture and Device Placement Search [7.620610652090732]
ディープラーニングトレーニングの分散実行には、ハードウェアアクセラレータアーキテクチャとデバイス配置戦略との動的相互作用が含まれる。
これは、最適なアーキテクチャとデバイス配置戦略を決定するための協調最適化を探求する最初の試みである。
提案手法は,最先端のTPUv4とSpotlightアクセラレーター検索フレームワークと比較して,大規模言語モデルにおいて高いスループットを実現する。
論文 参考訳(メタデータ) (2024-07-18T04:02:35Z) - RTP: Rethinking Tensor Parallelism with Memory Deduplication [3.036340414461332]
Rotated Parallelism(RTP)は、分散トレーニング環境におけるメモリ重複に着目した革新的なアプローチである。
我々の経験的評価はRTPの効率を裏付けるものであり、分散システムトレーニング中のメモリ消費が極めて最適に近いことを示している。
論文 参考訳(メタデータ) (2023-11-02T23:12:42Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Generalized Latency Performance Estimation for Once-For-All Neural
Architecture Search [0.0]
特定のハードウェアとNAS検索空間で訓練されたベースモデルを用いた微調整を含む2つの汎用性戦略を紹介します。
ProxylessNASに比べて50%以上低いRMSE損失を達成できる待ち時間予測モデル群を提供する。
論文 参考訳(メタデータ) (2021-01-04T00:48:09Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。