論文の概要: NVCiM-PT: An NVCiM-assisted Prompt Tuning Framework for Edge LLMs
- arxiv url: http://arxiv.org/abs/2411.08244v1
- Date: Tue, 12 Nov 2024 23:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:10:14.933522
- Title: NVCiM-PT: An NVCiM-assisted Prompt Tuning Framework for Edge LLMs
- Title(参考訳): NVCiM-PT:エッジLLMのためのNVCiM支援プロンプトチューニングフレームワーク
- Authors: Ruiyang Qin, Pengyu Ren, Zheyu Yan, Liu Liu, Dancheng Liu, Amir Nassereldine, Jinjun Xiong, Kai Ni, Sharon Hu, Yiyu Shi,
- Abstract要約: エッジデバイスにデプロイされる大規模言語モデル(LLM)は、限られたリソース制約の下でユーザ生成データからモデルパラメータを微調整する必要がある。
既存の学習手法の多くは、高いリソースと低い学習能力に依存しているため、エッジLLMには適用できない。
我々は新しいNVCiM支援PTフレームワークを導入し、コア演算を行列行列乗法に絞り込む。
- 参考スコア(独自算出の注目度): 21.975885198257664
- License:
- Abstract: Large Language Models (LLMs) deployed on edge devices, known as edge LLMs, need to continuously fine-tune their model parameters from user-generated data under limited resource constraints. However, most existing learning methods are not applicable for edge LLMs because of their reliance on high resources and low learning capacity. Prompt tuning (PT) has recently emerged as an effective fine-tuning method for edge LLMs by only modifying a small portion of LLM parameters, but it suffers from user domain shifts, resulting in repetitive training and losing resource efficiency. Conventional techniques to address domain shift issues often involve complex neural networks and sophisticated training, which are incompatible for PT for edge LLMs. Therefore, an open research question is how to address domain shift issues for edge LLMs with limited resources. In this paper, we propose a prompt tuning framework for edge LLMs, exploiting the benefits offered by non-volatile computing-in-memory (NVCiM) architectures. We introduce a novel NVCiM-assisted PT framework, where we narrow down the core operations to matrix-matrix multiplication, which can then be accelerated by performing in-situ computation on NVCiM. To the best of our knowledge, this is the first work employing NVCiM to improve the edge LLM PT performance.
- Abstract(参考訳): エッジLDMとして知られるエッジデバイスにデプロイされる大規模言語モデル(LLM)は、限られたリソース制約の下でユーザ生成データからモデルパラメータを継続的に微調整する必要がある。
しかし、既存の学習手法の多くは、高いリソースと低い学習能力に依存しているため、エッジLLMには適用できない。
プロンプトチューニング(PT)は近年,LLMパラメータのごく一部だけを変更することで,エッジLLMの効果的な微調整手法として登場したが,ユーザ領域のシフトに悩まされ,反復的なトレーニングが行われ,資源効率が低下する。
ドメインシフト問題に対処する従来のテクニックは、複雑なニューラルネットワークと高度なトレーニングを伴い、エッジLLMのPTと互換性がないことが多い。
したがって、オープンな研究課題は、限られたリソースを持つエッジLLMのドメインシフト問題にどのように対処するかである。
本稿では,非揮発性コンピューティング・イン・メモリ(NVCiM)アーキテクチャの利点を生かした,エッジLLMの迅速なチューニングフレームワークを提案する。
我々は NVCiM を用いた新しい PT フレームワークを導入し,コア演算を行列行列乗算に絞り込み,NVCiM 上でその場計算を行うことで高速化する。
我々の知る限り、これは、エッジLLM PT性能を改善するためにNVCiMを使用した最初の作品である。
関連論文リスト
- Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Resource Allocation for Stable LLM Training in Mobile Edge Computing [11.366306689957353]
本稿では,モバイルユーザとエッジサーバを統合し,リソース割り当てを最適化する協調トレーニングフレームワークについて検討する。
学習中のエネルギー消費と遅延の総量を最小限に抑えるために,多目的最適化問題を定式化する。
また,モデルの安定性向上を目的関数に組み込むことにより,モデル性能の不安定性の共通問題にも対処する。
論文 参考訳(メタデータ) (2024-09-30T12:36:27Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Pluto and Charon: A Time and Memory Efficient Collaborative Edge AI Framework for Personal LLMs Fine-Tuning [13.26886445965894]
Pluto and Charon(PAC)は、個人用LLMの微調整のための、時間とメモリ効率のよい協調エッジAIフレームワークである。
PACは、パラメータ、時間、メモリの点で効率的なパーソナルLLMの微調整技術を実装している。
プロトタイプ実装に基づく大規模な評価は、PACが最先端のアプローチを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-08-20T11:30:12Z) - Mobile Edge Intelligence for Large Language Models: A Contemporary Survey [32.22789677882933]
モバイルエッジインテリジェンス(MEI)は、クラウドコンピューティングに対するプライバシとレイテンシを改善した、モバイルネットワークのエッジ内のAI機能を提供する。
MEIはデバイス上のAIとクラウドベースのAIの間に位置し、無線通信とエンドユーザよりも強力なコンピューティングリソースを備えている。
本稿では,LLMのMEI活用に関する現代の調査を紹介する。
論文 参考訳(メタデータ) (2024-07-09T13:47:05Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。