論文の概要: TOAST: Fast and scalable auto-partitioning based on principled static analysis
- arxiv url: http://arxiv.org/abs/2508.15010v2
- Date: Fri, 22 Aug 2025 20:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 12:26:22.558517
- Title: TOAST: Fast and scalable auto-partitioning based on principled static analysis
- Title(参考訳): TOAST: 原則付き静的解析に基づく高速でスケーラブルな自動分割
- Authors: Sami Alabed, Dominik Grewe, Norman Alexander Rink, Masha Samsikova, Timur Sitdikov, Agnieszka Swietlik, Dimitrios Vytiniotis, Daniel Belov,
- Abstract要約: 本稿では,新しい静的コンパイラ解析とモンテカルロ木探索を組み合わせたシステムを提案する。
我々のシステムは、様々なハードウェアプラットフォームとモデルアーキテクチャで最先端の産業手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 0.4257223356246746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partitioning large machine learning models across distributed accelerator systems is a complex process, requiring a series of interdependent decisions that are further complicated by internal sharding ambiguities. Consequently, existing auto-partitioners often suffer from out-of-memory errors or are prohibitively slow when exploring the exponentially large space of possible partitionings. To mitigate this, they artificially restrict the search space, but this approach frequently yields infeasible solutions that violate device memory constraints or lead to sub-optimal performance. We propose a system that combines a novel static compiler analysis with a Monte Carlo Tree Search. Our analysis constructs an efficient decision space by identifying (i) tensor dimensions requiring identical sharding, and (ii) partitioning "conflicts" that require resolution. Our system significantly outperforms state-of-the-art industrial methods across diverse hardware platforms and model architectures, discovering previously unknown, superior solutions, and the process is fully automated even for complex and large models.
- Abstract(参考訳): 大規模機械学習モデルを分散アクセラレータシステムに分割することは複雑なプロセスであり、内部シャーディングの曖昧さによってさらに複雑になる一連の相互依存的な決定を必要とする。
その結果、既存の自動パーティショナはメモリ外エラーに悩まされる場合や、考えられるパーティショニングの指数的に大きなスペースを探索する際には、違法に遅くなる場合が多い。
これを緩和するために、彼らはサーチスペースを人工的に制限するが、このアプローチはデバイスメモリの制約に反する、あるいは準最適性能をもたらす、実現不可能なソリューションをしばしば生み出す。
本稿では,新しい静的コンパイラ解析とモンテカルロ木探索を組み合わせたシステムを提案する。
我々の分析は、同定により効率的な決定空間を構築する。
一 同一のシャーディングを必要とするテンソル次元、及び
(ii)解決を必要とする「紛争」を分割すること。
我々のシステムは、様々なハードウェアプラットフォームやモデルアーキテクチャにまたがる最先端の産業手法を著しく上回り、これまで知られていなかった優れたソリューションを発見し、複雑なモデルや大規模モデルでも完全に自動化されている。
関連論文リスト
- Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - Analyzing Logs of Large-Scale Software Systems using Time Curves Visualization [0.0]
従来の知識を使わずに,異なるアプリケーションから収集したログのメインイベントを,我々のアプローチで説明できることが示される。
その結果、パフォーマンスボトルネックとセキュリティリスクを特定するのに必要な時間の大幅な削減が期待できる。
論文 参考訳(メタデータ) (2024-11-08T12:42:45Z) - Restore Anything Model via Efficient Degradation Adaptation [129.38475243424563]
RAMは、様々な劣化にまたがる固有の類似性を活用して、効率的で包括的な復元を可能にする統一された経路を取る。
RAMのSOTA性能はRAMのSOTA性能を確認し、トレーニング可能なパラメータで約82%、FLOPで約85%のモデルの複雑さを減少させる。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - Splitter Orderings for Probabilistic Bisimulation [0.0]
本稿では,与えられた確率モデルの状態空間をバイシミュレートクラスに分割する反復過程を高速化する手法を提案する。
提案手法はいくつかのケーススタディに基づいて実装され,実行時間を平均1桁削減する。
論文 参考訳(メタデータ) (2023-07-17T16:30:19Z) - Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。
標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。
我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。
本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文 参考訳(メタデータ) (2023-04-01T15:50:18Z) - SONAR: Joint Architecture and System Optimization Search [23.031629325665875]
SONARは、両方の検索プロセスに早期停止を適用することにより、予測精度と推論遅延を効率的に最適化することを目的としている。
複数の異なるハードウェアバックエンドに関する実験により、SONARはブルートフォースアプローチの30倍の速度で、ほぼ最適なアーキテクチャを識別できることがわかった。
論文 参考訳(メタデータ) (2022-08-25T17:07:54Z) - Unsupervised Space Partitioning for Nearest Neighbor Search [6.516813715425121]
本稿では,個別の損失関数を用いて分割処理と学習段階を結合するエンドツーエンド学習フレームワークを提案する。
提案したソリューションの重要な利点は、データセットの高価な事前処理を必要としないことです。
提案手法は,最先端空間分割法とユビキタスK平均クラスタリング法に勝ることを示す。
論文 参考訳(メタデータ) (2022-06-16T11:17:03Z) - Automap: Towards Ergonomic Automated Parallelism for ML Models [2.469997094590327]
本稿では,既存のコンパイラと既存ユーザをシームレスに統合する自動パーティショナのプロトタイプを提案する。
我々のパーティショナは、データ並列性とパラメータ/アクティベーションシャーディングを含むSPMDスタイルの並列処理を可能にする。
帰納的戦術とプラットフォーム非依存のパーティショニングIRでの検索を組み合わせることで、Automapはトランスフォーマー層に対するMegatronシャーディングのような専門的なパーティショニング戦略を回復することができる。
論文 参考訳(メタデータ) (2021-12-06T12:09:38Z) - Partition-Guided GANs [63.980473635585234]
私たちは、スペースを小さな領域に分割し、それぞれがよりシンプルな分布を持ち、各パーティションごとに異なるジェネレータを訓練するパーティションーを設計します。
これはラベルを必要とせずに教師なしの方法で実行される。
各種標準ベンチマーク実験の結果,提案手法が近年の手法を上回っていることがわかった。
論文 参考訳(メタデータ) (2021-04-02T00:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。