論文の概要: LinguaLinked: A Distributed Large Language Model Inference System for
Mobile Devices
- arxiv url: http://arxiv.org/abs/2312.00388v1
- Date: Fri, 1 Dec 2023 07:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 15:32:00.181864
- Title: LinguaLinked: A Distributed Large Language Model Inference System for
Mobile Devices
- Title(参考訳): LinguaLinked: モバイルデバイス用の分散大規模言語モデル推論システム
- Authors: Junchen Zhao, Yurun Song, Simeng Liu, Ian G. Harris, Sangeetha Abdu
Jyothi
- Abstract要約: LinguaLinkedは、モバイルデバイス上の分散分散大言語モデル(LLM)推論のためのシステムである。
推論性能の加速はシングルスレッド設定で1.11times$から1.61times$、マルチスレッドで1.73times$から2.65times$になる。
- 参考スコア(独自算出の注目度): 4.07532985236519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Large Language Models (LLMs) locally on mobile devices presents a
significant challenge due to their extensive memory requirements. In this
paper, we introduce LinguaLinked, a system for decentralized, distributed LLM
inference on mobile devices. LinguaLinked enables collaborative execution of
the inference task across multiple trusted devices. LinguaLinked ensures data
privacy by processing information locally. LinguaLinked uses three key
strategies. First, an optimized model assignment technique segments LLMs and
uses linear optimization to align segments with each device's capabilities.
Second, an optimized data transmission mechanism ensures efficient and
structured data flow between model segments while also maintaining the
integrity of the original model structure. Finally, LinguaLinked incorporates a
runtime load balancer that actively monitors and redistributes tasks among
mobile devices to prevent bottlenecks, enhancing the system's overall
efficiency and responsiveness. We demonstrate that LinguaLinked facilitates
efficient LLM inference while maintaining consistent throughput and minimal
latency through extensive testing across various mobile devices, from high-end
to low-end Android devices. In our evaluations, compared to the baseline,
LinguaLinked achieves an inference performance acceleration of $1.11\times$ to
$1.61\times$ in single-threaded settings, $1.73\times$ to $2.65\times$ with
multi-threading. Additionally, runtime load balancing yields an overall
inference acceleration of $1.29\times$ to $1.32\times$.
- Abstract(参考訳): モバイルデバイスにローカルにLLM(Large Language Models)をデプロイすることは、その広範なメモリ要求のために大きな課題となる。
本稿では,モバイル端末上で分散分散llm推論を行うシステムであるlingualinkedを提案する。
LinguaLinkedは、複数の信頼できるデバイス間で推論タスクの協調実行を可能にする。
lingualinkedは、情報をローカルに処理することでデータのプライバシを確保する。
LinguaLinkedには3つの重要な戦略がある。
まず、最適化されたモデル割当技術がllmをセグメント化し、各デバイスの機能に合わせてセグメントを線形最適化する。
第二に、最適化されたデータ伝達機構は、モデルセグメント間の効率的で構造化されたデータフローを確保しつつ、元のモデル構造の完全性を維持する。
最後に、lingualinkedには、ボトルネックを防ぐためにモバイルデバイス間でタスクを積極的に監視し再配布するランタイムロードバランサが組み込まれており、システムの全体的な効率と応答性が向上している。
LinguaLinkedは、ハイエンドからローエンドのAndroidデバイスに至るまで、さまざまなモバイルデバイスにわたる広範なテストを通じて、一貫したスループットと最小レイテンシを維持しながら、効率的なLCM推論を容易にすることを実証した。
我々の評価では、ベースラインと比較して、LinguaLinkedはシングルスレッド設定で1.11\times$から1.61\times$、マルチスレッドで1.73\times$から2.65\times$の推論性能加速を達成する。
さらに、ランタイムのロードバランシングにより、全体的な推論の加速は$1.29\times$から$1.32\times$となる。
関連論文リスト
- Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。
LLMは異なる言語間で大きな性能差を示す。
Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文 参考訳(メタデータ) (2024-10-16T11:23:03Z) - ELMS: Elasticized Large Language Models On Mobile Devices [5.689405542579458]
デバイス上の大規模言語モデル(LLM)は、プライバシー問題に対処しながら、UI自動化などのアプリケーションを可能にする、モバイルAIに革命をもたらしている。
ELMSは、モデルとプロンプト次元の両方で弾力性を提供するように設計されたデバイス上でのLCMサービスである。
トランスモデルに固有の置換整合性を利用して高品質で柔軟なサブモデルを作成するワンタイムリオーダーニューロニング技術。
プロンプトを効率的に洗練し、モデルプロンプト間の弾性適応をコーディネートするデュアルヘッドコンパクト言語モデル。
論文 参考訳(メタデータ) (2024-09-08T06:32:08Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Confidant: Customizing Transformer-based LLMs via Collaborative Edge
Training [18.526329975259483]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的な機能を示している。
コンピューティング、メモリ、エネルギー予算に制限のあるモバイルエッジデバイスにLSMをデプロイし、微調整することは困難である。
我々は,コモディティモバイルデバイス上での最先端のLCMをカスタマイズするためのマルチバックエンド協調学習フレームワークであるConfidantを提案する。
論文 参考訳(メタデータ) (2023-11-22T13:20:59Z) - DiLoCo: Distributed Low-Communication Training of Language Models [32.15083548875492]
大規模言語モデル(LLM)は、機械学習の多くのアプリケーションにおいて重要なコンポーネントである。
LLMのトレーニングのための標準的なアプローチは、多数の相互接続されたアクセラレータを必要とする。
本研究では,低接続のデバイス上での言語モデルのトレーニングを可能にする分散最適化アルゴリズムDiLoCoを提案する。
論文 参考訳(メタデータ) (2023-11-14T12:05:45Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。