Fugu-MT 論文翻訳(概要): CubicML: Automated ML for Distributed ML Systems Co-design with ML Prediction of Performance

論文の概要: CubicML: Automated ML for Distributed ML Systems Co-design with ML Prediction of Performance

arxiv url: http://arxiv.org/abs/2409.04585v1
Date: Fri, 6 Sep 2024 19:55:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 21:42:30.221969
Title: CubicML: Automated ML for Distributed ML Systems Co-design with ML Prediction of Performance
Title（参考訳）: CubicML: 分散MLシステムのための自動MLとMLによるパフォーマンス予測
Authors: Wei Wen, Quanyu Zhu, Weiwei Chu, Wen-Yen Chen, Jiyan Yang,
Abstract要約: ディープラーニングモデルのスケールアップは、機械学習モデル(ML)のインテリジェンスを改善するために有効であることが証明されている。分散MLシステムとアルゴリズム(トレーニングパフォーマンスを最大化する)の共同設計は、その成功に重要な役割を果たす。分散MLシステムのトレーニング性能を自動最適化するために,MLを用いたCuicMLを提案する。
参考スコア（独自算出の注目度）: 7.425372356516303
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling up deep learning models has been proven effective to improve intelligence of machine learning (ML) models, especially for industry recommendation models and large language models. The co-design of distributed ML systems and algorithms (to maximize training performance) plays a pivotal role for its success. As it scales, the number of co-design hyper-parameters grows rapidly which brings challenges to feasibly find the optimal setup for system performance maximization. In this paper, we propose CubicML which uses ML to automatically optimize training performance of distributed ML systems. In CubicML, we use a ML model as a proxy to predict the training performance for search efficiency and performance modeling flexibility. We proved that CubicML can effectively optimize training speed of in-house ads recommendation models and large language models at Meta.
Abstract（参考訳）: ディープラーニングモデルのスケールアップは、特に産業レコメンデーションモデルや大規模言語モデルにおいて、マシンラーニング(ML)モデルのインテリジェンスを改善するために有効であることが証明されている。分散MLシステムとアルゴリズム(トレーニング性能を最大化する)の共同設計は、その成功に重要な役割を果たす。スケールするにつれて、共同設計のハイパーパラメータの数が急速に増加し、システムパフォーマンスの最大化に最適な設定を見つけることが困難になる。本稿では,分散MLシステムのトレーニング性能を自動最適化するキュービックMLを提案する。 CubicMLでは、機械学習モデルをプロキシとして使用し、探索効率と性能モデリングの柔軟性のトレーニング性能を予測する。我々は,CubicMLがMetaの社内広告推薦モデルと大規模言語モデルのトレーニング速度を効果的に最適化できることを実証した。

関連論文リスト

Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
Can LLMs Revolutionize the Design of Explainable and Efficient TinyML Models? [8.953379216683736]
本稿では,小さな機械学習(TinyML)プラットフォームに特化して,効率的なニューラルネットワークアーキテクチャを設計するための新しいフレームワークを提案する。大規模言語モデル(LLM)をニューラルネットワーク探索(NAS)、視覚変換器(ViT)ベースの知識蒸留(KD)戦略、説明可能性モジュールに活用することにより、精度、計算効率、メモリ使用率の最適なバランスをとることができる。
論文参考訳（メタデータ） (2025-04-13T18:36:03Z)
Lumos: Efficient Performance Modeling and Estimation for Large-scale LLM Training [4.059735204483926]
大規模LLMトレーニングのためのトレース駆動性能モデリングおよび推定ツールキットであるLumosを提案する。 Lumosは平均3.3%のエラーで実行時間をリプレイでき、他のランタイムの詳細とともに、異なるモデルや設定で実行できる。
論文参考訳（メタデータ） (2025-04-12T18:43:24Z)
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2024-11-15T18:59:27Z)
Large Language Models for Constructing and Optimizing Machine Learning Workflows: A Survey [3.340984908213717]
複雑なタスクに対処するための効果的な機械学習(ML)を構築することは、Automatic ML(AutoML)コミュニティの主要な焦点である。最近、MLへのLLM(Large Language Models)の統合は、MLパイプラインのさまざまなステージを自動化し、拡張する大きな可能性を示している。
論文参考訳（メタデータ） (2024-11-11T21:54:26Z)
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文参考訳（メタデータ） (2024-10-21T17:58:20Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
CoLLiE: Collaborative Training of Large Language Models in an Efficient Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文参考訳（メタデータ） (2023-12-01T08:02:16Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
GEVO-ML: Optimizing Machine Learning Code with Evolutionary Computation [6.525197444717069]
GEVO-MLは、最適化の機会を発見し、機械学習カーネルのパフォーマンスをチューニングするためのツールである。モデルトレーニングと予測の両方のために、GEVO-MLを2つの異なるMLワークロードでデモする。 GEVO-MLはこれらのモデルに大きな改善を加え、モデル精度が2%の緩和で90.43%の性能向上を達成した。
論文参考訳（メタデータ） (2023-10-16T09:24:20Z)
MLGOPerf: An ML Guided Inliner to Optimize Performance [7.314201117946244]
本稿では,LLVMのML-Inlinerを用いて,パフォーマンスを最適化する初のエンドツーエンドフレームワークを提案する。セカンダリMLモデルを使用して、リターゲット強化学習エージェントのトレーニングに使用する報酬を生成する。分析中の関数のインライン後のスピードアップを予測し、プライマリモデルのための高速なトレーニングフレームワークを可能にする。
論文参考訳（メタデータ） (2022-07-18T05:47:29Z)
Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2021-09-22T00:57:46Z)
Evaluating Deep Learning in SystemML using Layer-wise Adaptive Rate Scaling(LARS) Optimizer [0.3857494091717916]
LARSをSystemMLを用いて実装したディープラーニングモデルに適用する。各種バッチサイズで実験を行い、LARSの性能を分散機械学習フレームワークと比較する。
論文参考訳（メタデータ） (2021-02-05T06:23:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。