Fugu-MT 論文翻訳(概要): FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs

論文の概要: FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs

arxiv url: http://arxiv.org/abs/2309.01172v1
Date: Sun, 3 Sep 2023 13:27:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 21:02:13.061503
Title: FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs
Title（参考訳）: FusionAI: 大規模コンシューマレベルGPUによる分散トレーニングとデプロイメント
Authors: Zhenheng Tang, Yuxin Wang, Xin He, Longteng Zhang, Xinglin Pan, Qiang Wang, Rongfei Zeng, Kaiyong Zhao, Shaohuai Shi, Bingsheng He, Xiaowen Chu
Abstract要約: 我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
参考スコア（独自算出の注目度）: 57.12856172329322
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid growth of memory and computation requirements of large language models (LLMs) has outpaced the development of hardware, hindering people who lack large-scale high-end GPUs from training or deploying LLMs. However, consumer-level GPUs, which constitute a larger market share, are typically overlooked in LLM due to their weaker computing performance, smaller storage capacity, and lower communication bandwidth. Additionally, users may have privacy concerns when interacting with remote LLMs. In this paper, we envision a decentralized system unlocking the potential vast untapped consumer-level GPUs in pre-training, inference and fine-tuning of LLMs with privacy protection. However, this system faces critical challenges, including limited CPU and GPU memory, low network bandwidth, the variability of peer and device heterogeneity. To address these challenges, our system design incorporates: 1) a broker with backup pool to implement dynamic join and quit of computing providers; 2) task scheduling with hardware performance to improve system efficiency; 3) abstracting ML procedures into directed acyclic graphs (DAGs) to achieve model and task universality; 4) abstracting intermediate represention and execution planes to ensure compatibility of various devices and deep learning (DL) frameworks. Our performance analysis demonstrates that 50 RTX 3080 GPUs can achieve throughputs comparable to those of 4 H100 GPUs, which are significantly more expensive.
Abstract（参考訳）: 大規模言語モデル(LLM)のメモリと計算要求の急速な増加は、ハードウェアの開発を上回り、LLMのトレーニングやデプロイから大規模ハイエンドGPUを欠いている人々を妨げる。しかし、市場シェアが大きいコンシューマレベルのgpuは、計算性能の低下、ストレージ容量の縮小、通信帯域の低減などによりllmでは見過ごされがちである。さらに、リモートLLMと対話する際には、プライバシ上の懸念がある可能性がある。本稿では,プライバシ保護によるLCMの事前学習,推論,微調整において,潜在的に未完成なコンシューマレベルのGPUをアンロックする分散システムを提案する。しかし、このシステムはCPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの不均一性の変動など、重要な課題に直面している。これらの課題に対処するために、システム設計は以下のとおりである。 1) コンピュータプロバイダの動的結合及び停止を実装するためのバックアッププール付きブローカー 2) システム効率を向上させるためのハードウェア性能によるタスクスケジューリング 3)MLプロシージャをDAGに抽象化し,モデル及びタスク普遍性を達成する。 4) 中間表現と実行プレーンを抽象化して、さまざまなデバイスとディープラーニング(DL)フレームワークの互換性を確保する。性能分析の結果,50 RTX 3080 GPU は 4 の H100 GPU に匹敵するスループットを達成できることがわかった。

関連論文リスト

QiMeng-Attention: SOTA Attention Operator is generated by SOTA Attention Algorithm [24.09018606185114]
我々は,LLMがGPU上での高レベル最適化ロジックの生成と低レベル実装を分離するためのLLMフレンドリーな思考言語(LLM-TL)を提案する。 2段階の推論ワークフロー、TL-Codeの生成と変換に加えて、LLMはさまざまなGPU上でFlashAttention実装を自動的に生成できる。
論文参考訳（メタデータ） (2025-06-14T05:38:19Z)
Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving [28.19296680865433]
大規模ワークロード(LLM)の実現は、特に言語モデルをホストするプロバイダにとって、コストがかかる。モデルとその共有による長いアイドル期間の長期的人気は、このタスクに新たな機会と課題を生み出します。本稿では、GPU共有の可能性を解き放ち、効率とSLO達成を両立させるシステムであるPrismを提案する。
論文参考訳（メタデータ） (2025-05-06T23:38:33Z)
MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文参考訳（メタデータ） (2025-04-12T21:26:56Z)
Code generation and runtime techniques for enabling data-efficient deep learning training on GPUs [8.00550423071637]
この論文は、特にグラフニューラルネットワーク(GNN)と大規模言語モデル(LLM)において、代表的深層学習タスクにおけるデータ非効率を解析する。これらの課題を軽減し、PyTorchスタック内でこれらの最適化をシームレスに実装するための、新しいランタイムとコード生成技術を提案する。
論文参考訳（メタデータ） (2024-12-06T03:20:03Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
TDML -- A Trustworthy Distributed Machine Learning Framework [7.302091381583343]
大規模モデル(LM)の急速な進歩は、計算資源の需要を増大させた。この需要は、サプライチェーンの遅延と大手テック企業による独占的な買収により、可用性の限界によって悪化している。本稿では、リモートトレーナーのコーディネートとワークロードの検証にガイダンスを活用する、テキスト信頼に値する分散機械学習(TDML)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-10T03:22:28Z)
Towards Universal Performance Modeling for Machine Learning Training on Multi-GPU Platforms [4.959530958049395]
我々は,コンピュータシステム上での機械学習(ML)ワークロードのトレーニングパフォーマンスを特徴付けるパイプラインを開発し,予測する。私たちのパイプラインは、TransformerベースのNLPモデルなど、他のタイプのMLワークロードに一般化されています。最速の埋め込みテーブルシャーディング構成を素早く選択するような洞察を生成することができる。
論文参考訳（メタデータ） (2024-04-19T07:20:33Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
Efficient LLM inference solution on Intel GPU [19.154403468201924]
トランスフォーマーベースの大規模言語モデル(LLM)は多くの分野で広く使われている。低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。標準的なHuggingFaceの実装と比較して、提案されたソリューションは最大で7倍のトークンレイテンシと27倍のスループットを実現している。
論文参考訳（メタデータ） (2023-12-19T05:40:43Z)
Distributed Inference and Fine-tuning of Large Language Models Over The Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文参考訳（メタデータ） (2023-12-13T18:52:49Z)
Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文参考訳（メタデータ） (2023-10-04T20:27:20Z)
Multi-model Machine Learning Inference Serving with GPU Spatial Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-01T04:46:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。