論文の概要: Maya: Optimizing Deep Learning Training Workloads using Emulated Virtual Accelerators
- arxiv url: http://arxiv.org/abs/2503.20191v1
- Date: Wed, 26 Mar 2025 03:33:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:19:41.507162
- Title: Maya: Optimizing Deep Learning Training Workloads using Emulated Virtual Accelerators
- Title(参考訳): Maya: エミュレートされた仮想アクセラレータによるディープラーニングトレーニングワークロードの最適化
- Authors: Srihas Yarlagadda, Amey Agrawal, Elton Pinto, Hakesh Darapaneni, Mitali Meratwal, Shivam Mittal, Pranavi Bajjuri, Srinivas Sridharan, Alexey Tumanov,
- Abstract要約: 大規模な基盤モデルのトレーニングには数億ドルの費用がかかり、デプロイメントの最適化が重要になる。
現在のアプローチでは、機械学習エンジニアが、高価な計算クラスタ上でエラーを起こしやすい試行錯誤を通じて、手動でトレーニングレシピを作成する必要がある。
透過的なデバイスエミュレーションによってこれらのトレードオフを解消するパフォーマンスモデリングシステムであるMayaを提案する。
- 参考スコア(独自算出の注目度): 1.9628781486304074
- License:
- Abstract: Training large foundation models costs hundreds of millions of dollars, making deployment optimization critical. Current approaches require machine learning engineers to manually craft training recipes through error-prone trial-and-error on expensive compute clusters. To enable efficient exploration of training configurations, researchers have developed performance modeling systems. However, these systems force users to translate their workloads into custom specification languages, introducing a fundamental semantic gap between the actual workload and its representation. This gap creates an inherent tradeoff: systems must either support a narrow set of workloads to maintain usability, require complex specifications that limit practical adoption, or compromise prediction accuracy with simplified models. We present Maya, a performance modeling system that eliminates these tradeoffs through transparent device emulation. By operating at the narrow interface between training frameworks and accelerator devices, Maya can capture complete workload behavior without requiring code modifications or translations. Maya intercepts device API calls from unmodified training code to directly observe low-level operations, enabling accurate performance prediction while maintaining both ease of use and generality. Our evaluation shows Maya achieves less than 5% prediction error across diverse models and optimization strategies, identifying configurations that reduce training costs by up to 56% compared to existing approaches.
- Abstract(参考訳): 大規模な基盤モデルのトレーニングには数億ドルの費用がかかり、デプロイメントの最適化が重要になる。
現在のアプローチでは、機械学習エンジニアが、高価な計算クラスタ上でエラーを起こしやすい試行錯誤を通じて、手動でトレーニングレシピを作成する必要がある。
トレーニング構成の効率的な探索を可能にするため、研究者は性能モデリングシステムを開発した。
しかし、これらのシステムでは、ワークロードをカスタム仕様言語に変換させ、実際のワークロードと表現の間に基本的な意味的ギャップを生じさせる。
このギャップは固有のトレードオフを生み出します – システムはユーザビリティを維持するために、狭いワークロードセットをサポートするか、実用的な採用を制限する複雑な仕様を必要とするか、単純化されたモデルで予測精度を損なう必要があります。
透過的なデバイスエミュレーションによってこれらのトレードオフを解消するパフォーマンスモデリングシステムであるMayaを提案する。
トレーニングフレームワークとアクセラレータデバイスの間の狭いインターフェースで操作することで、Mayaはコード修正や翻訳を必要とせずに、完全なワークロード動作をキャプチャできる。
Mayaは、修正されていないトレーニングコードからのデバイスAPI呼び出しをインターセプトして、低レベルの操作を直接監視し、使いやすさと汎用性の両方を維持しながら、正確なパフォーマンス予測を可能にする。
我々の評価によると、Mayaは様々なモデルと最適化戦略で5%未満の予測誤差を達成しており、既存のアプローチと比較してトレーニングコストを最大56%削減する構成を特定できる。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Efficient Motion Prediction: A Lightweight & Accurate Trajectory Prediction Model With Fast Training and Inference Speed [56.27022390372502]
我々は,1つのGPU上で数時間のトレーニングをしながら,競争力の高いベンチマーク結果を実現する,新しい効率的な動き予測モデルを提案する。
その低推論レイテンシは、特に限られたコンピューティングリソースを持つ自律アプリケーションへのデプロイに適している。
論文 参考訳(メタデータ) (2024-09-24T14:58:27Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - MIREncoder: Multi-modal IR-based Pretrained Embeddings for Performance Optimizations [6.919817502555546]
本稿では,Multi-modal IRベースのオートエンコーダであるMIREncoderを提案する。
マルチモーダルなアプローチにより、コンパイル可能なプログラムからより優れた特徴を抽出できる。
評価の結果,提案手法はオーバヘッドを低減しつつ,技術状況より優れることが示された。
論文 参考訳(メタデータ) (2024-07-02T13:00:19Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - RAF: Holistic Compilation for Deep Learning Model Training [17.956035630476173]
本稿では,学習のための深層学習コンパイラであるRAFについて述べる。
既存のDLCとは異なり、RAFはフォワードモデルを受け入れ、社内でトレーニンググラフを生成する。
RAFは、パフォーマンス、メモリ、分散トレーニングのためのグラフ最適化を体系的に統合することができる。
論文 参考訳(メタデータ) (2023-03-08T17:51:13Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Scanflow: A multi-graph framework for Machine Learning workflow
management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。
このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文 参考訳(メタデータ) (2021-11-04T17:01:12Z) - Knodle: Modular Weakly Supervised Learning with PyTorch [5.874587993411972]
Knodleは、弱いデータアノテーション、強力なディープラーニングモデル、弱い教師付きトレーニングを改善する方法を分離するためのソフトウェアフレームワークです。
このモジュール化により、トレーニングプロセスはデータセットの特性、ルールの一致、あるいは最終的に予測に使用されるディープラーニングモデルの要素などのきめ細かい情報にアクセスできるようになる。
論文 参考訳(メタデータ) (2021-04-23T12:33:25Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。