論文の概要: SPA: Towards A Computational Friendly Cloud-Base and On-Devices
Collaboration Seq2seq Personalized Generation
- arxiv url: http://arxiv.org/abs/2403.07088v1
- Date: Mon, 11 Mar 2024 18:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 23:52:45.807516
- Title: SPA: Towards A Computational Friendly Cloud-Base and On-Devices
Collaboration Seq2seq Personalized Generation
- Title(参考訳): SPA: 計算フレンドリなクラウドベースとオンデバイスコラボレーションのSeq2seqパーソナライズ生成を目指す
- Authors: Yanming Liu, Xinyue Peng, Jiannan Cao, Le Dai, Xingzu Liu, Weihao Liu,
Mingbang Wang
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクや質問応答において優れた性能を示している。
LLMは、トレーニングや予測手順に機密情報が含まれている場合、プライバシーの漏洩を引き起こす可能性がある。
デバイス上での高速な推論のための軽量アーキテクチャであるSPA(Side Adaption)を提案する。
- 参考スコア(独自算出の注目度): 2.9496748198617206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models(LLMs) have shown its outperforming ability on various
tasks and question answering. However, LLMs require high computation cost and
large memory cost. At the same time, LLMs may cause privacy leakage when
training or prediction procedure contains sensitive information. In this paper,
we propose SPA(Side Plugin Adaption), a lightweight architecture for fast
on-devices inference and privacy retaining on the constraints of strict
on-devices computation and memory constraints. Compared with other on-devices
seq2seq generation, SPA could make a fast and stable inference on low-resource
constraints, allowing it to obtain cost effiency. Our method establish an
interaction between a pretrained LLMs on-cloud and additive parameters
on-devices, which could provide the knowledge on both pretrained LLMs and
private personal feature.Further more, SPA provides a framework to keep
feature-base parameters on private guaranteed but low computational devices
while leave the parameters containing general information on the high
computational devices.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクや質問応答において優れた性能を示している。
しかし、LSMは高い計算コストと大きなメモリコストを必要とする。
同時に、LLMは、トレーニングや予測手順に機密情報が含まれている場合、プライバシー漏洩を引き起こす可能性がある。
本稿では,デバイス上での厳密な計算とメモリ制約の制約を考慮し,デバイス上での高速推論とプライバシ保持のための軽量アーキテクチャであるspa(side plugin adaption)を提案する。
デバイス上のSeq2seq生成と比較すると、SPAは低リソースの制約に対して高速で安定した推論を行い、コスト効率を得ることができた。
本手法は,事前学習されたLLMとデバイス上の付加パラメータの相互作用を確立し,事前学習されたLLMとプライベートな個人的特徴の両方に関する知識を提供する。さらに,SPAは,高次計算装置の一般情報を含むパラメータを残しつつ,プライベートな保証された低い計算装置上の特徴ベースパラメータを保持するためのフレームワークを提供する。
関連論文リスト
- Automated Federated Pipeline for Parameter-Efficient Fine-Tuning of Large Language Models [21.864109456867784]
多くの下流タスクでは、プライベートデータを使用して大きな言語モデル(LLM)を微調整する必要がある。
我々はFedPipeという自動フェデレーションパイプラインを提案し、最小のトレーニングコストでLLMを微調整する。
大規模な実験では、FedPipeがモデルのトレーニングを高速化し、最先端のベンチマークよりも高い精度を達成することが示されている。
論文 参考訳(メタデータ) (2024-04-09T16:50:30Z) - On the Compressibility of Quantized Large Language Models [13.443384050034922]
大規模言語モデル(LLM)は、エッジまたはモバイルデバイスにデプロイされ、データプライバシとリアルタイム処理機能を提供する。
LLMは、エッジやモバイルデバイスの限られたメモリに完全に収まるには大きすぎるかもしれないし、推論を完了するには、部分的にストレージからロードする必要がある。
データ圧縮技術を適用してデータ移動を減らし、メモリ制約デバイス上での量子化LDMの推論を高速化する。
論文 参考訳(メタデータ) (2024-03-03T03:27:07Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Federated Full-Parameter Tuning of Billion-Sized Language Models with
Communication Cost under 18 Kilobytes [56.67419203687434]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。
FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。
サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文 参考訳(メタデータ) (2023-12-11T13:03:21Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
大規模言語モデル(LLM)は、多数のアプリケーションの能力を変革した。
エッジデバイス上でのLSMの実行により、レイテンシの低減とユーザエクスペリエンスの向上を実現している。
低ビット量のみの量子化のためのアクティベーション・アウェア・ウェイト量子化(AWQ)を提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。