論文の概要: SPA: Towards A Computational Friendly Cloud-Base and On-Devices
Collaboration Seq2seq Personalized Generation
- arxiv url: http://arxiv.org/abs/2403.07088v1
- Date: Mon, 11 Mar 2024 18:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 23:52:45.807516
- Title: SPA: Towards A Computational Friendly Cloud-Base and On-Devices
Collaboration Seq2seq Personalized Generation
- Title(参考訳): SPA: 計算フレンドリなクラウドベースとオンデバイスコラボレーションのSeq2seqパーソナライズ生成を目指す
- Authors: Yanming Liu, Xinyue Peng, Jiannan Cao, Le Dai, Xingzu Liu, Weihao Liu,
Mingbang Wang
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクや質問応答において優れた性能を示している。
LLMは、トレーニングや予測手順に機密情報が含まれている場合、プライバシーの漏洩を引き起こす可能性がある。
デバイス上での高速な推論のための軽量アーキテクチャであるSPA(Side Adaption)を提案する。
- 参考スコア(独自算出の注目度): 2.9496748198617206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models(LLMs) have shown its outperforming ability on various
tasks and question answering. However, LLMs require high computation cost and
large memory cost. At the same time, LLMs may cause privacy leakage when
training or prediction procedure contains sensitive information. In this paper,
we propose SPA(Side Plugin Adaption), a lightweight architecture for fast
on-devices inference and privacy retaining on the constraints of strict
on-devices computation and memory constraints. Compared with other on-devices
seq2seq generation, SPA could make a fast and stable inference on low-resource
constraints, allowing it to obtain cost effiency. Our method establish an
interaction between a pretrained LLMs on-cloud and additive parameters
on-devices, which could provide the knowledge on both pretrained LLMs and
private personal feature.Further more, SPA provides a framework to keep
feature-base parameters on private guaranteed but low computational devices
while leave the parameters containing general information on the high
computational devices.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクや質問応答において優れた性能を示している。
しかし、LSMは高い計算コストと大きなメモリコストを必要とする。
同時に、LLMは、トレーニングや予測手順に機密情報が含まれている場合、プライバシー漏洩を引き起こす可能性がある。
本稿では,デバイス上での厳密な計算とメモリ制約の制約を考慮し,デバイス上での高速推論とプライバシ保持のための軽量アーキテクチャであるspa(side plugin adaption)を提案する。
デバイス上のSeq2seq生成と比較すると、SPAは低リソースの制約に対して高速で安定した推論を行い、コスト効率を得ることができた。
本手法は,事前学習されたLLMとデバイス上の付加パラメータの相互作用を確立し,事前学習されたLLMとプライベートな個人的特徴の両方に関する知識を提供する。さらに,SPAは,高次計算装置の一般情報を含むパラメータを残しつつ,プライベートな保証された低い計算装置上の特徴ベースパラメータを保持するためのフレームワークを提供する。
関連論文リスト
- DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Ripple: Accelerating LLM Inference on Smartphones with Correlation-Aware Neuron Management [22.908079935647073]
大規模言語モデル(LLM)は、さまざまな領域で大きな成功を収めていますが、モバイルデバイスにデプロイすることは難しい課題です。
我々は、フラッシュメモリにおけるニューロン配置を最適化することにより、スマートフォン上でのLSM推論を高速化する新しいアプローチであるRippleを提案する。
私たちは、Rippleが最先端と比較して最大5.93倍のI/Oレイテンシ改善を実現していることを実証した。
論文 参考訳(メタデータ) (2024-10-25T03:01:19Z) - Resource Allocation for Stable LLM Training in Mobile Edge Computing [11.366306689957353]
本稿では,モバイルユーザとエッジサーバを統合し,リソース割り当てを最適化する協調トレーニングフレームワークについて検討する。
学習中のエネルギー消費と遅延の総量を最小限に抑えるために,多目的最適化問題を定式化する。
また,モデルの安定性向上を目的関数に組み込むことにより,モデル性能の不安定性の共通問題にも対処する。
論文 参考訳(メタデータ) (2024-09-30T12:36:27Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。
MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文 参考訳(メタデータ) (2024-06-12T22:58:12Z) - SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead [75.87007729801304]
SpaFL: 計算オーバーヘッドの少ないスパースモデル構造を最適化する通信効率のよいFLフレームワークを提案する。
実験により、スパースベースラインに比べて通信やコンピューティングリソースをはるかに少なくし、精度を向上することが示された。
論文 参考訳(メタデータ) (2024-06-01T13:10:35Z) - On the Compressibility of Quantized Large Language Models [13.443384050034922]
大規模言語モデル(LLM)は、エッジまたはモバイルデバイスにデプロイされ、データプライバシとリアルタイム処理機能を提供する。
LLMは、エッジやモバイルデバイスの限られたメモリに完全に収まるには大きすぎるかもしれないし、推論を完了するには、部分的にストレージからロードする必要がある。
データ圧縮技術を適用してデータ移動を減らし、メモリ制約デバイス上での量子化LDMの推論を高速化する。
論文 参考訳(メタデータ) (2024-03-03T03:27:07Z) - Confidant: Customizing Transformer-based LLMs via Collaborative Edge
Training [18.526329975259483]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的な機能を示している。
コンピューティング、メモリ、エネルギー予算に制限のあるモバイルエッジデバイスにLSMをデプロイし、微調整することは困難である。
我々は,コモディティモバイルデバイス上での最先端のLCMをカスタマイズするためのマルチバックエンド協調学習フレームワークであるConfidantを提案する。
論文 参考訳(メタデータ) (2023-11-22T13:20:59Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。