論文の概要: Confidant: Customizing Transformer-based LLMs via Collaborative Edge
Training
- arxiv url: http://arxiv.org/abs/2311.13381v1
- Date: Wed, 22 Nov 2023 13:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 15:05:43.122123
- Title: Confidant: Customizing Transformer-based LLMs via Collaborative Edge
Training
- Title(参考訳): Confidant: コラボレーションエッジトレーニングによるトランスフォーマーベースのLLMのカスタマイズ
- Authors: Yuhao Chen, Yuxuan Yan, Qianqian Yang, Yuanchao Shu, Shibo He, Jiming
Chen
- Abstract要約: トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的な機能を示している。
コンピューティング、メモリ、エネルギー予算に制限のあるモバイルエッジデバイスにLSMをデプロイし、微調整することは困難である。
我々は,コモディティモバイルデバイス上での最先端のLCMをカスタマイズするためのマルチバックエンド協調学習フレームワークであるConfidantを提案する。
- 参考スコア(独自算出の注目度): 18.526329975259483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based large language models (LLMs) have demonstrated impressive
capabilities in a variety of natural language processing (NLP) tasks.
Nonetheless, it is challenging to deploy and fine-tune LLMs on mobile edge
devices with limited computing, memory, and energy budgets. In this paper, we
propose Confidant, a multi-backend collaborative training framework for
customizing state-of-the-art LLMs on commodity mobile devices like smartphones.
Confidant partitions an LLM into several sub-models so that each fits into a
mobile device's memory. A pipeline parallel training mechanism is further
developed to ensure fast and efficient distributed training. In addition, we
propose a novel backend scheduler to allocate different attention heads to
heterogeneous compute hardware, including mobile CPU and GPUs, to maximize the
compute resource utilization on each edge device. Our preliminary experimental
results show that Confidant achieves at most 45.3% memory reduction and 8.03x
inference speedup in practical settings.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的な機能を示している。
それでも、コンピューティング、メモリ、エネルギー予算に制限のあるモバイルエッジデバイスにLSMをデプロイし、微調整することは困難である。
本稿では,スマートフォンなどの携帯機器上で最先端のllmをカスタマイズするための多元的協調学習フレームワークであるconfidantを提案する。
信頼度はLPMをいくつかのサブモデルに分割し、それぞれがモバイルデバイスのメモリに収まるようにする。
高速かつ効率的な分散トレーニングを実現するために、パイプライン並列トレーニング機構も開発されている。
さらに,モバイルCPUやGPUを含む異種コンピューティングハードウェアに異なる注意点を割り当て,各エッジデバイス上での計算資源利用を最大化する新しいバックエンドスケジューラを提案する。
予備実験の結果,少なくとも45.3%のメモリ削減と8.03倍の推論高速化を実現した。
関連論文リスト
- WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-11T02:48:00Z) - PalmBench: A Comprehensive Benchmark of Compressed Large Language Models on Mobile Platforms [11.87161637895978]
ユーザがモバイルデバイス上で大きな言語モデルを評価することができる軽量でオールインワンな自動ベンチマークフレームワークを紹介します。
ハードウェア能力の異なる複数のモバイルプラットフォームに対して、様々な量子化構成(重みとアクティベーションの両方)の異なる様々な人気のあるLCMのベンチマークを提供する。
論文 参考訳(メタデータ) (2024-10-05T03:37:07Z) - Resource Allocation for Stable LLM Training in Mobile Edge Computing [11.366306689957353]
本稿では,モバイルユーザとエッジサーバを統合し,リソース割り当てを最適化する協調トレーニングフレームワークについて検討する。
学習中のエネルギー消費と遅延の総量を最小限に抑えるために,多目的最適化問題を定式化する。
また,モデルの安定性向上を目的関数に組み込むことにより,モデル性能の不安定性の共通問題にも対処する。
論文 参考訳(メタデータ) (2024-09-30T12:36:27Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Mobile Edge Intelligence for Large Language Models: A Contemporary Survey [32.22789677882933]
モバイルエッジインテリジェンス(MEI)は、クラウドコンピューティングに対するプライバシとレイテンシを改善した、モバイルネットワークのエッジ内のAI機能を提供する。
MEIはデバイス上のAIとクラウドベースのAIの間に位置し、無線通信とエンドユーザよりも強力なコンピューティングリソースを備えている。
本稿では,LLMのMEI活用に関する現代の調査を紹介する。
論文 参考訳(メタデータ) (2024-07-09T13:47:05Z) - Towards Universal Performance Modeling for Machine Learning Training on Multi-GPU Platforms [4.959530958049395]
我々は,コンピュータシステム上での機械学習(ML)ワークロードのトレーニングパフォーマンスを特徴付けるパイプラインを開発し,予測する。
私たちのパイプラインは、TransformerベースのNLPモデルなど、他のタイプのMLワークロードに一般化されています。
最速の埋め込みテーブルシャーディング構成を素早く選択するような洞察を生成することができる。
論文 参考訳(メタデータ) (2024-04-19T07:20:33Z) - MELTing point: Mobile Evaluation of Language Transformers [8.238355633015068]
大規模言語モデル(LLM)のモバイル実行の現状について検討する。
我々は,デバイス上でのLLMのヘッドレス実行とベンチマークをサポートする,独自の自動化インフラストラクチャMELTを開発した。
我々は、一般的な命令の微調整 LLM を評価し、それぞれのフレームワークを用いてエンドツーエンドおよび粒度の性能を計測する。
論文 参考訳(メタデータ) (2024-03-19T15:51:21Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。