論文の概要: Scheduling Parallel Optical Circuit Switches for AI Training
- arxiv url: http://arxiv.org/abs/2603.07373v1
- Date: Sat, 07 Mar 2026 22:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.389619
- Title: Scheduling Parallel Optical Circuit Switches for AI Training
- Title(参考訳): AIトレーニングのための並列光回路スイッチのスケジューリング
- Authors: Kevin Liang, Litao Qiao, Isaac Keslassy, Bill Lin,
- Abstract要約: AIトレーニングは、データセンターのトラフィックとエネルギー消費を劇的に増加させた。
マルチパラレル光回路スイッチ(OCSe)を高帯域幅でエネルギー効率のよいAIファブリックの代替品としてデプロイすることが主要な選択肢である。
並列OCS間のトラフィックを非無視再設定遅延でスケジュールする効率的な方法を提案する。
当社のアルゴリズムであるSpectraは、最先端のアルゴリズムに基づくベースラインをはるかに上回り、GPT AIワークロードでは平均14時間、MoE AIワークロードでは1.9時間、標準ベンチマークでは2.4時間でスケジュールメークパンを削減しています。
- 参考スコア(独自算出の注目度): 3.5347567826963373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of AI training has dramatically increased datacenter traffic demand and energy consumption, which has motivated renewed interest in optical circuit switches (OCSes) as a high-bandwidth, energy-efficient alternative for AI fabrics. Deploying multiple parallel OCSes is a leading alternative. However, efficiently scheduling time-varying traffic matrices across parallel optical switches with non-negligible reconfiguration delays remains an open challenge. We consider the problem of scheduling a single AI traffic demand matrix $D$ over $s$ parallel OCSes while minimizing the makespan under reconfiguration delay $δ$. Our algorithm Spectra relies on a three-step approach: Decompose $D$ into a minimal set of weighted permutations; Schedule these permutations across parallel switches using load-aware assignment; then Equalize the imbalanced loads on the switches via controlled permutation splitting. Evaluated on realistic AI training workloads (GPT model and Qwen MoE expert routing) as well as standard benchmarks, Spectra vastly outperforms a baseline based on state-of-the-art algorithms, reducing schedule makespan by an average factor of $1.4\times$ on GPT AI workloads, $1.9\times$ on MoE AI workloads, and $2.4\times$ on standard benchmarks. Further, the makespans achieved by Spectra consistently approach newly derived lower bounds.
- Abstract(参考訳): AIトレーニングの急速な成長は、データセンターのトラフィック需要とエネルギー消費を劇的に増加させ、AIファブリックの高帯域幅でエネルギー効率の良い代替手段として、光回路スイッチ(OCSe)への新たな関心を動機付けている。
並列OCSのデプロイは主要な代替手段である。
しかし、非無視的な再構成遅延を伴う並列光スイッチ間の時間変化トラフィック行列を効率的にスケジューリングすることは、未解決の課題である。
我々は,1つのAIトラフィック要求行列を$D$ over $s$並列OCSでスケジューリングし,再設定遅延を$δ$で最小化する問題を考察する。
我々のアルゴリズムであるSpectraは、3段階のアプローチに依存している。$D$を最小限の重み付き置換集合に分解する; 負荷対応の割り当てを使ってこれらの置換を並列スイッチにスケジュールする; そして、制御された置換分割によってスイッチ上の不均衡な負荷を等化する。
現実的なAIトレーニングワークロード(GPTモデルとQwen MoEエキスパートルーティング)と標準ベンチマークに基づいて評価されたSpectraは、最先端のアルゴリズムに基づくベースラインをはるかに上回り、GPT AIワークロードでは平均1.4\times$、MoE AIワークロードでは1.9\times$、標準ベンチマークでは2.4\times$となっている。
さらに、スペクトルによって達成されたメイスパンは、新しく導出された下界に一貫して接近する。
関連論文リスト
- GANGR: GAN-Assisted Scalable and Efficient Global Routing Parallelization [0.6117371161379208]
グローバルルーティングは電子設計自動化(EDA)における重要な段階である
本稿では,より効率的な並列化を実現するために,WGAN(Wasserstein Generative Network)を提案する。
提案アルゴリズムは最新のISPD'24コンテストのベンチマークでテストされ、最先端ルータと比較して、ルーティング品質は0.002%しか低下せず、40%の低下を示した。
論文 参考訳(メタデータ) (2025-11-21T00:32:33Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。
また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。
我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-07T15:57:56Z) - Low-Overhead Parallelisation of LCU via Commuting Operators [0.0]
LCU(Linear Combination of Unitaries)は、演算子のブロック符号化のための強力なスキームであるが、高いオーバーヘッドに悩まされている。
本稿では,LCUの並列化,特にLCUのSELECTサブルーチンについて論じる。
また、本研究の主な成果であるQROM回路の並列化についても論じる。
論文 参考訳(メタデータ) (2023-12-01T16:29:02Z) - Non-stationary Delayed Online Convex Optimization: From Full-information to Bandit Setting [71.82716109461967]
遅延勾配が利用できる全情報ケースに対して Mild-OGD というアルゴリズムを提案する。
ミルド-OGDのダイナミックな後悔は、順番の仮定の下で$O(sqrtbardT(P_T+1))$で自動的に束縛されることを示す。
Mild-OGDのバンディット版も開発し,損失値の遅れのみを考慮に入れた,より困難なケースについて検討した。
論文 参考訳(メタデータ) (2023-05-20T07:54:07Z) - Logarithmic Switching Cost in Reinforcement Learning beyond Linear MDPs [31.673857053336352]
本稿では,時間ホリゾン$H$において,エピソード数と線形数に切り替えコストの対数性を持たせることで,ほぼ最適の後悔を実現するアルゴリズムを提案する。
また、ELEANOR-LowSwitchingで使われる「二重化トリック」を一般化線形関数近似にさらに活用できることを示す。
論文 参考訳(メタデータ) (2023-02-24T05:14:27Z) - One-shot, Offline and Production-Scalable PID Optimisation with Deep
Reinforcement Learning [0.0]
PID制御は、97%以上の自動化産業プロセスの基盤となっている。
汎用システム特性の関係を学習する深層強化学習に基づく手法を提案する。
この方法は、最も困難な目標切換速度に該当するアクチュエータの数を5倍に改善する。
論文 参考訳(メタデータ) (2022-10-25T10:49:26Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。