論文の概要: SPA: Towards A Computational Friendly Cloud-Base and On-Devices
Collaboration Seq2seq Personalized Generation
- arxiv url: http://arxiv.org/abs/2403.07088v1
- Date: Mon, 11 Mar 2024 18:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 23:52:45.807516
- Title: SPA: Towards A Computational Friendly Cloud-Base and On-Devices
Collaboration Seq2seq Personalized Generation
- Title(参考訳): SPA: 計算フレンドリなクラウドベースとオンデバイスコラボレーションのSeq2seqパーソナライズ生成を目指す
- Authors: Yanming Liu, Xinyue Peng, Jiannan Cao, Le Dai, Xingzu Liu, Weihao Liu,
Mingbang Wang
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクや質問応答において優れた性能を示している。
LLMは、トレーニングや予測手順に機密情報が含まれている場合、プライバシーの漏洩を引き起こす可能性がある。
デバイス上での高速な推論のための軽量アーキテクチャであるSPA(Side Adaption)を提案する。
- 参考スコア(独自算出の注目度): 2.9496748198617206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models(LLMs) have shown its outperforming ability on various
tasks and question answering. However, LLMs require high computation cost and
large memory cost. At the same time, LLMs may cause privacy leakage when
training or prediction procedure contains sensitive information. In this paper,
we propose SPA(Side Plugin Adaption), a lightweight architecture for fast
on-devices inference and privacy retaining on the constraints of strict
on-devices computation and memory constraints. Compared with other on-devices
seq2seq generation, SPA could make a fast and stable inference on low-resource
constraints, allowing it to obtain cost effiency. Our method establish an
interaction between a pretrained LLMs on-cloud and additive parameters
on-devices, which could provide the knowledge on both pretrained LLMs and
private personal feature.Further more, SPA provides a framework to keep
feature-base parameters on private guaranteed but low computational devices
while leave the parameters containing general information on the high
computational devices.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクや質問応答において優れた性能を示している。
しかし、LSMは高い計算コストと大きなメモリコストを必要とする。
同時に、LLMは、トレーニングや予測手順に機密情報が含まれている場合、プライバシー漏洩を引き起こす可能性がある。
本稿では,デバイス上での厳密な計算とメモリ制約の制約を考慮し,デバイス上での高速推論とプライバシ保持のための軽量アーキテクチャであるspa(side plugin adaption)を提案する。
デバイス上のSeq2seq生成と比較すると、SPAは低リソースの制約に対して高速で安定した推論を行い、コスト効率を得ることができた。
本手法は,事前学習されたLLMとデバイス上の付加パラメータの相互作用を確立し,事前学習されたLLMとプライベートな個人的特徴の両方に関する知識を提供する。さらに,SPAは,高次計算装置の一般情報を含むパラメータを残しつつ,プライベートな保証された低い計算装置上の特徴ベースパラメータを保持するためのフレームワークを提供する。
関連論文リスト
- HeteroLLM: Accelerating Large Language Model Inference on Mobile SoCs platform with Heterogeneous AI Accelerators [7.377592753635839]
HeteroLLMはモバイルデバイスで最速のLCM推論エンジンであり、層レベルとテンソルレベルのヘテロジニアス実行の両方をサポートする。
評価結果から,HeteroLLMは他のモバイル側LPM推論エンジンと比較して9.99と4.36の性能改善が達成された。
論文 参考訳(メタデータ) (2025-01-11T02:42:02Z) - Efficient Deployment of Large Language Models on Resource-constrained Devices [12.644230479753476]
様々な下流タスクのために、リソース制約されたデバイス上でLLM(Large Language Models)を微調整する必要がある。
FedSpineは、PEFT(Efficient Fine-Tuning)と構造化プルーニングを組み合わせたフレームワークで、リソース制約のあるデバイスにLLMを効率的にデプロイする。
我々はFedSpineが1.4Times$$$timesで微調整を高速化し、最終的な精度を他のベースラインと比べて同じ間隔で0.4%-4.5%向上できることを示した。
論文 参考訳(メタデータ) (2025-01-05T04:38:11Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。
MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文 参考訳(メタデータ) (2024-06-12T22:58:12Z) - On the Compressibility of Quantized Large Language Models [13.443384050034922]
大規模言語モデル(LLM)は、エッジまたはモバイルデバイスにデプロイされ、データプライバシとリアルタイム処理機能を提供する。
LLMは、エッジやモバイルデバイスの限られたメモリに完全に収まるには大きすぎるかもしれないし、推論を完了するには、部分的にストレージからロードする必要がある。
データ圧縮技術を適用してデータ移動を減らし、メモリ制約デバイス上での量子化LDMの推論を高速化する。
論文 参考訳(メタデータ) (2024-03-03T03:27:07Z) - Confidant: Customizing Transformer-based LLMs via Collaborative Edge
Training [18.526329975259483]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的な機能を示している。
コンピューティング、メモリ、エネルギー予算に制限のあるモバイルエッジデバイスにLSMをデプロイし、微調整することは困難である。
我々は,コモディティモバイルデバイス上での最先端のLCMをカスタマイズするためのマルチバックエンド協調学習フレームワークであるConfidantを提案する。
論文 参考訳(メタデータ) (2023-11-22T13:20:59Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。