論文の概要: NVCiM-PT: An NVCiM-assisted Prompt Tuning Framework for Edge LLMs
- arxiv url: http://arxiv.org/abs/2411.08244v1
- Date: Tue, 12 Nov 2024 23:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:10:14.933522
- Title: NVCiM-PT: An NVCiM-assisted Prompt Tuning Framework for Edge LLMs
- Title(参考訳): NVCiM-PT:エッジLLMのためのNVCiM支援プロンプトチューニングフレームワーク
- Authors: Ruiyang Qin, Pengyu Ren, Zheyu Yan, Liu Liu, Dancheng Liu, Amir Nassereldine, Jinjun Xiong, Kai Ni, Sharon Hu, Yiyu Shi,
- Abstract要約: エッジデバイスにデプロイされる大規模言語モデル(LLM)は、限られたリソース制約の下でユーザ生成データからモデルパラメータを微調整する必要がある。
既存の学習手法の多くは、高いリソースと低い学習能力に依存しているため、エッジLLMには適用できない。
我々は新しいNVCiM支援PTフレームワークを導入し、コア演算を行列行列乗法に絞り込む。
- 参考スコア(独自算出の注目度): 21.975885198257664
- License:
- Abstract: Large Language Models (LLMs) deployed on edge devices, known as edge LLMs, need to continuously fine-tune their model parameters from user-generated data under limited resource constraints. However, most existing learning methods are not applicable for edge LLMs because of their reliance on high resources and low learning capacity. Prompt tuning (PT) has recently emerged as an effective fine-tuning method for edge LLMs by only modifying a small portion of LLM parameters, but it suffers from user domain shifts, resulting in repetitive training and losing resource efficiency. Conventional techniques to address domain shift issues often involve complex neural networks and sophisticated training, which are incompatible for PT for edge LLMs. Therefore, an open research question is how to address domain shift issues for edge LLMs with limited resources. In this paper, we propose a prompt tuning framework for edge LLMs, exploiting the benefits offered by non-volatile computing-in-memory (NVCiM) architectures. We introduce a novel NVCiM-assisted PT framework, where we narrow down the core operations to matrix-matrix multiplication, which can then be accelerated by performing in-situ computation on NVCiM. To the best of our knowledge, this is the first work employing NVCiM to improve the edge LLM PT performance.
- Abstract(参考訳): エッジLDMとして知られるエッジデバイスにデプロイされる大規模言語モデル(LLM)は、限られたリソース制約の下でユーザ生成データからモデルパラメータを継続的に微調整する必要がある。
しかし、既存の学習手法の多くは、高いリソースと低い学習能力に依存しているため、エッジLLMには適用できない。
プロンプトチューニング(PT)は近年,LLMパラメータのごく一部だけを変更することで,エッジLLMの効果的な微調整手法として登場したが,ユーザ領域のシフトに悩まされ,反復的なトレーニングが行われ,資源効率が低下する。
ドメインシフト問題に対処する従来のテクニックは、複雑なニューラルネットワークと高度なトレーニングを伴い、エッジLLMのPTと互換性がないことが多い。
したがって、オープンな研究課題は、限られたリソースを持つエッジLLMのドメインシフト問題にどのように対処するかである。
本稿では,非揮発性コンピューティング・イン・メモリ(NVCiM)アーキテクチャの利点を生かした,エッジLLMの迅速なチューニングフレームワークを提案する。
我々は NVCiM を用いた新しい PT フレームワークを導入し,コア演算を行列行列乗算に絞り込み,NVCiM 上でその場計算を行うことで高速化する。
我々の知る限り、これは、エッジLLM PT性能を改善するためにNVCiMを使用した最初の作品である。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。
実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。
論文 参考訳(メタデータ) (2024-12-13T02:26:54Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Resource Allocation for Stable LLM Training in Mobile Edge Computing [11.366306689957353]
本稿では,モバイルユーザとエッジサーバを統合し,リソース割り当てを最適化する協調トレーニングフレームワークについて検討する。
学習中のエネルギー消費と遅延の総量を最小限に抑えるために,多目的最適化問題を定式化する。
また,モデルの安定性向上を目的関数に組み込むことにより,モデル性能の不安定性の共通問題にも対処する。
論文 参考訳(メタデータ) (2024-09-30T12:36:27Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Mobile Edge Intelligence for Large Language Models: A Contemporary Survey [32.22789677882933]
モバイルエッジインテリジェンス(MEI)は、クラウドコンピューティングに対するプライバシとレイテンシを改善した、モバイルネットワークのエッジ内のAI機能を提供する。
MEIはデバイス上のAIとクラウドベースのAIの間に位置し、無線通信とエンドユーザよりも強力なコンピューティングリソースを備えている。
本稿では,LLMのMEI活用に関する現代の調査を紹介する。
論文 参考訳(メタデータ) (2024-07-09T13:47:05Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation with Large Language Models [11.845239346943067]
パラメータ効率のよい微調整(PEFT)は、大規模言語モデル(LLM)をタスク固有のデータに効率的に専門化するための有望なアプローチである。
本研究は,PEFTと量子化を組み合わせることで,より大きなLCMをチューニングし,メモリ使用量を大幅に削減する可能性を明らかにする。
論文 参考訳(メタデータ) (2023-08-21T04:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。