論文の概要: vTrain: A Simulation Framework for Evaluating Cost-effective and
Compute-optimal Large Language Model Training
- arxiv url: http://arxiv.org/abs/2312.12391v1
- Date: Mon, 27 Nov 2023 13:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 13:29:10.800702
- Title: vTrain: A Simulation Framework for Evaluating Cost-effective and
Compute-optimal Large Language Model Training
- Title(参考訳): vTrain: コスト効率とコンピュータ最適大言語モデルトレーニングを評価するためのシミュレーションフレームワーク
- Authors: Jehyeon Bang, Yujeong Choi, Myeongwoo Kim, Yongdeok Kim, Minsoo Rhu
- Abstract要約: 本稿では, プロファイリング駆動型シミュレータvTrainについて, 効率的かつ費用対効果の高いトレーニングシステム構成を決定する。
いくつかのケーススタディ、例えば最適な訓練並列化戦略を効果的に評価することで、vTrainの実用性を実証する。
- 参考スコア(独自算出の注目度): 3.224032543241306
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As large language models (LLMs) become widespread in various application
domains, a critical challenge the AI community is facing is how to train these
large AI models in a cost-effective manner. Existing LLM training plans
typically employ a heuristic based parallel training strategy which is based on
empirical observations rather than grounded upon a thorough examination of the
search space of LLM parallelization. Such limitation renders existing systems
to leave significant performance left on the table, wasting millions of dollars
worth of training cost. This paper presents our profiling-driven simulator
called vTrain, providing AI practitioners a fast yet accurate software
framework to determine an efficient and cost-effective LLM training system
configuration. We demonstrate vTrain's practicality through several case
studies, e.g., effectively evaluating optimal training parallelization
strategies that balances training time and its associated training cost,
efficient multi-tenant GPU cluster schedulers targeting multiple LLM training
jobs, and determining a compute-optimal LLM model architecture given a fixed
compute budget.
- Abstract(参考訳): 大規模言語モデル(LLM)がさまざまなアプリケーションドメインで普及するにつれ、AIコミュニティが直面している重要な課題は、これらの大きなAIモデルをコスト効率よくトレーニングする方法である。
既存のLLM訓練計画では、LLM並列化の探索空間を徹底的に検討するよりも、経験的観察に基づくヒューリスティックな並列訓練戦略が一般的である。
このような制限は、既存のシステムに大きなパフォーマンスを残し、数百万ドル相当のトレーニングコストを無駄にします。
本稿では、プロファイリング駆動シミュレータvTrainを提案し、AI実践者が高速かつ正確なソフトウェアフレームワークを提供し、効率よく費用対効果の高いLCMトレーニングシステム構成を決定する。
例えば、トレーニング時間と関連するトレーニングコストのバランスをとる最適なトレーニング並列化戦略を効果的に評価し、複数のLLMトレーニングジョブをターゲットにした効率的なマルチテナントGPUクラスタスケジューラ、固定された計算予算を与えられた計算最適LLMモデルアーキテクチャを決定する。
関連論文リスト
- eFedLLM: Efficient LLM Inference Based on Federated Learning [1.6179784294541053]
大言語モデル(LLMs)は人工知能(AI)の転換期を告げる
本稿では, LLM推論の運用効率と費用対効果を高める効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-11-24T22:50:02Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Exploring Scaling Laws for Local SGD in Large Language Model Training [4.125418728284004]
モデルパラメータ,データセット,計算資源が与えられた従来の手法と比較して,局所的なSGDは競争力のある結果が得られることを示す。
これは、単一の大規模クラスタトレーニングの代替として、その生存性を示すものだ。
論文 参考訳(メタデータ) (2024-09-20T04:02:48Z) - Understanding the Performance and Estimating the Cost of LLM Fine-Tuning [9.751868268608675]
コスト効率の良い特定のタスクのための微調整大型言語モデル(LLM)。
本稿では,Sparse Mixture of Experts (MoE)をベースとしたLLMファインチューニングを特徴付ける。
また,クラウド上でのLCM微調整のコストを推定するための解析モデルを開発し,検証する。
論文 参考訳(メタデータ) (2024-08-08T16:26:07Z) - Large Language Models for Base Station Siting: Intelligent Deployment based on Prompt or Agent [62.16747639440893]
大規模言語モデル(LLM)とその関連技術は、特に迅速な工学とエージェント工学の領域において進歩している。
このアプローチは、人間の経験と知識をこれらの洗練されたLLMに注入するために、巧妙なプロンプトの戦略的利用を必要とする。
この統合は、サービスとしての人工知能(AI)と、より容易なAIの将来のパラダイムを表している。
論文 参考訳(メタデータ) (2024-08-07T08:43:32Z) - SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。
既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文 参考訳(メタデータ) (2024-07-11T05:38:15Z) - One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments [43.107261545706415]
大規模言語モデル(LLM)は急速に進歩しているが、かなりのメモリ需要に直面している。
現在の方法では、量子化損失によるパフォーマンス劣化を軽減するために、通常、長いトレーニングが必要です。
我々は、一度限りのフレームワークを大規模言語モデルに拡張する最初の試みを行っている。
論文 参考訳(メタデータ) (2024-05-30T16:05:15Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。