Fugu-MT 論文翻訳(概要): Maya: Optimizing Deep Learning Training Workloads using Emulated Virtual Accelerators

論文の概要: Maya: Optimizing Deep Learning Training Workloads using Emulated Virtual Accelerators

arxiv url: http://arxiv.org/abs/2503.20191v1
Date: Wed, 26 Mar 2025 03:33:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 19:18:47.034404
Title: Maya: Optimizing Deep Learning Training Workloads using Emulated Virtual Accelerators
Title（参考訳）: Maya: エミュレートされた仮想アクセラレータによるディープラーニングトレーニングワークロードの最適化
Authors: Srihas Yarlagadda, Amey Agrawal, Elton Pinto, Hakesh Darapaneni, Mitali Meratwal, Shivam Mittal, Pranavi Bajjuri, Srinivas Sridharan, Alexey Tumanov,
Abstract要約: 大規模な基盤モデルのトレーニングには数億ドルの費用がかかり、デプロイメントの最適化が重要になる。現在のアプローチでは、機械学習エンジニアが、高価な計算クラスタ上でエラーを起こしやすい試行錯誤を通じて、手動でトレーニングレシピを作成する必要がある。透過的なデバイスエミュレーションによってこれらのトレードオフを解消するパフォーマンスモデリングシステムであるMayaを提案する。
参考スコア（独自算出の注目度）: 1.9628781486304074
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training large foundation models costs hundreds of millions of dollars, making deployment optimization critical. Current approaches require machine learning engineers to manually craft training recipes through error-prone trial-and-error on expensive compute clusters. To enable efficient exploration of training configurations, researchers have developed performance modeling systems. However, these systems force users to translate their workloads into custom specification languages, introducing a fundamental semantic gap between the actual workload and its representation. This gap creates an inherent tradeoff: systems must either support a narrow set of workloads to maintain usability, require complex specifications that limit practical adoption, or compromise prediction accuracy with simplified models. We present Maya, a performance modeling system that eliminates these tradeoffs through transparent device emulation. By operating at the narrow interface between training frameworks and accelerator devices, Maya can capture complete workload behavior without requiring code modifications or translations. Maya intercepts device API calls from unmodified training code to directly observe low-level operations, enabling accurate performance prediction while maintaining both ease of use and generality. Our evaluation shows Maya achieves less than 5% prediction error across diverse models and optimization strategies, identifying configurations that reduce training costs by up to 56% compared to existing approaches.
Abstract（参考訳）: 大規模な基盤モデルのトレーニングには数億ドルの費用がかかり、デプロイメントの最適化が重要になる。現在のアプローチでは、機械学習エンジニアが、高価な計算クラスタ上でエラーを起こしやすい試行錯誤を通じて、手動でトレーニングレシピを作成する必要がある。トレーニング構成の効率的な探索を可能にするため、研究者は性能モデリングシステムを開発した。しかし、これらのシステムでは、ワークロードをカスタム仕様言語に変換させ、実際のワークロードと表現の間に基本的な意味的ギャップを生じさせる。このギャップは固有のトレードオフを生み出します – システムはユーザビリティを維持するために、狭いワークロードセットをサポートするか、実用的な採用を制限する複雑な仕様を必要とするか、単純化されたモデルで予測精度を損なう必要があります。透過的なデバイスエミュレーションによってこれらのトレードオフを解消するパフォーマンスモデリングシステムであるMayaを提案する。トレーニングフレームワークとアクセラレータデバイスの間の狭いインターフェースで操作することで、Mayaはコード修正や翻訳を必要とせずに、完全なワークロード動作をキャプチャできる。 Mayaは、修正されていないトレーニングコードからのデバイスAPI呼び出しをインターセプトして、低レベルの操作を直接監視し、使いやすさと汎用性の両方を維持しながら、正確なパフォーマンス予測を可能にする。我々の評価によると、Mayaは様々なモデルと最適化戦略で5%未満の予測誤差を達成しており、既存のアプローチと比較してトレーニングコストを最大56%削減する構成を特定できる。

関連論文リスト

Data Scaling Laws for End-to-End Autonomous Driving [83.85463296830743]
16時間から8192時間に及ぶ内部駆動データセット上での簡易エンド・ツー・エンド駆動アーキテクチャの性能評価を行った。具体的には、目標の性能向上を達成するために、どの程度のトレーニングデータが必要かを調査する。
論文参考訳（メタデータ） (2025-04-06T03:23:48Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Efficient Motion Prediction: A Lightweight & Accurate Trajectory Prediction Model With Fast Training and Inference Speed [56.27022390372502]
我々は,1つのGPU上で数時間のトレーニングをしながら,競争力の高いベンチマーク結果を実現する,新しい効率的な動き予測モデルを提案する。その低推論レイテンシは、特に限られたコンピューティングリソースを持つ自律アプリケーションへのデプロイに適している。
論文参考訳（メタデータ） (2024-09-24T14:58:27Z)
MIREncoder: Multi-modal IR-based Pretrained Embeddings for Performance Optimizations [6.919817502555546]
本稿では,Multi-modal IRベースのオートエンコーダであるMIREncoderを提案する。マルチモーダルなアプローチにより、コンパイル可能なプログラムからより優れた特徴を抽出できる。評価の結果,提案手法はオーバヘッドを低減しつつ,技術状況より優れることが示された。
論文参考訳（メタデータ） (2024-07-02T13:00:19Z)
RAF: Holistic Compilation for Deep Learning Model Training [17.956035630476173]
本稿では,学習のための深層学習コンパイラであるRAFについて述べる。既存のDLCとは異なり、RAFはフォワードモデルを受け入れ、社内でトレーニンググラフを生成する。 RAFは、パフォーマンス、メモリ、分散トレーニングのためのグラフ最適化を体系的に統合することができる。
論文参考訳（メタデータ） (2023-03-08T17:51:13Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Scanflow: A multi-graph framework for Machine Learning workflow management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文参考訳（メタデータ） (2021-11-04T17:01:12Z)
Knodle: Modular Weakly Supervised Learning with PyTorch [5.874587993411972]
Knodleは、弱いデータアノテーション、強力なディープラーニングモデル、弱い教師付きトレーニングを改善する方法を分離するためのソフトウェアフレームワークです。このモジュール化により、トレーニングプロセスはデータセットの特性、ルールの一致、あるいは最終的に予測に使用されるディープラーニングモデルの要素などのきめ細かい情報にアクセスできるようになる。
論文参考訳（メタデータ） (2021-04-23T12:33:25Z)
Transfer Learning without Knowing: Reprogramming Black-box Machine Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。 BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文参考訳（メタデータ） (2020-07-17T01:52:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。