論文の概要: PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing
- arxiv url: http://arxiv.org/abs/2503.12167v2
- Date: Wed, 19 Mar 2025 15:23:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 12:00:41.032457
- Title: PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing
- Title(参考訳): PLM:ユビキタスコンピューティングのためのハードウェア共同設計による効率的な周辺言語モデル
- Authors: Cheng Deng, Luoyang Sun, Jiwen Jiang, Yongcheng Zeng, Xinjian Wu, Wenxin Zhao, Qingfa Xiao, Jiachuan Wang, Haoyang Li, Lei Chen, Lionel M. Ni, Haifeng Zhang, Jun Wang,
- Abstract要約: 我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。
PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。
評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 48.30406812516552
- License:
- Abstract: While scaling laws have been continuously validated in large language models (LLMs) with increasing model parameters, the inherent tension between the inference demands of LLMs and the limited resources of edge devices poses a critical challenge to the development of edge intelligence. Recently, numerous small language models have emerged, aiming to distill the capabilities of LLMs into smaller footprints. However, these models often retain the fundamental architectural principles of their larger counterparts, still imposing considerable strain on the storage and bandwidth capacities of edge devices. In this paper, we introduce the PLM, a Peripheral Language Model, developed through a co-design process that jointly optimizes model architecture and edge system constraints. The PLM utilizes a Multi-head Latent Attention mechanism and employs the squared ReLU activation function to encourage sparsity, thereby reducing peak memory footprint during inference. During training, we collect and reorganize open-source datasets, implement a multi-phase training strategy, and empirically investigate the Warmup-Stable-Decay-Constant (WSDC) learning rate scheduler. Additionally, we incorporate Reinforcement Learning from Human Feedback (RLHF) by adopting the ARIES preference learning approach. Following a two-phase SFT process, this method yields performance gains of 2% in general tasks, 9% in the GSM8K task, and 11% in coding tasks. In addition to its novel architecture, evaluation results demonstrate that PLM outperforms existing small language models trained on publicly available data while maintaining the lowest number of activated parameters. Furthermore, deployment across various edge devices, including consumer-grade GPUs, mobile phones, and Raspberry Pis, validates PLM's suitability for peripheral applications. The PLM series models are publicly available at https://github.com/plm-team/PLM.
- Abstract(参考訳): 大規模言語モデル(LLM)では,LLMの推論要求とエッジデバイスの限られたリソースとの間の緊張関係が,エッジインテリジェンスの発展に重要な課題となっている。
近年,LLMの能力を小さなフットプリントに融合させることを目的として,多数の小言語モデルが出現している。
しかしながら、これらのモデルはより大きな製品の基本的アーキテクチャ原則を維持しており、エッジデバイスのストレージと帯域容量にかなりの制約を課している。
本稿では、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。
PLMはMulti-head Latent Attentionメカニズムを使用し、正方形ReLUアクティベーション関数を用いて、スパーシティを促進し、推論時のピークメモリフットプリントを低減する。
トレーニング中、オープンソースのデータセットを収集し、再構成し、マルチフェーズのトレーニング戦略を実装し、Warmup-Stable-Decay-Constant(WSDC)学習率スケジューラを実証的に調査する。
さらに、ARIES選好学習アプローチを採用することで、人間フィードバックからの強化学習(RLHF)を組み込む。
2段階のSFTプロセスに続いて、一般的なタスクでは2%、GSM8Kタスクでは9%、コーディングタスクでは11%のパフォーマンス向上が得られる。
新たなアーキテクチャに加えて、PLMは、アクティベートパラメータの最小数を保ちながら、公開データ上でトレーニングされた既存の小言語モデルよりも優れていることを示す。
さらに、コンシューマグレードのGPU、携帯電話、Raspberry Piなど、さまざまなエッジデバイスへのデプロイは、周辺アプリケーションに対するPLMの適合性を検証する。
PLMシリーズモデルはhttps://github.com/plm-team/PLM.comで公開されている。
関連論文リスト
- Efficient Multitask Learning in Small Language Models Through Upside-Down Reinforcement Learning [8.995427413172148]
小型言語モデル (SLM) はマルチタスクのプロンプト生成タスクにおいて競合性能を達成することができる。
Llama-3, Qwen2, Mistral など最先端モデルの 5% 以内の妥当性スコアを達成できる SLM のトレーニングを行う。
論文 参考訳(メタデータ) (2025-02-14T01:39:45Z) - Low-Rank Adapters Meet Neural Architecture Search for LLM Compression [1.8434042562191815]
LLM(Large Language Models)の急速な拡張は、微調整と展開に必要な計算資源に関して重大な課題を提起している。
低ランクアダプタの最近の進歩は、これらのモデルのパラメータ効率のよい微調整(PEFT)において有効であることを示した。
本稿では,低ランク表現をニューラルアーキテクチャサーチ(NAS)技術と相乗化するための革新的なアプローチを包括的に論じる。
論文 参考訳(メタデータ) (2025-01-23T02:14:08Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Mixture of Attentions For Speculative Decoding [17.344416130742232]
投機的復号法(SD)は、より小さなモデルを利用して将来のトークンを効率的に提案し、それを大規模言語モデルによって並列に検証する。
SDモデルには、トレーニング中のオン・ポリティネスの欠如や部分観測可能性の欠如など、いくつかの制限がある。
SD用ミクチャ・オブ・アテンションの導入により,小型モデルのより基礎的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-04T10:25:52Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Save It All: Enabling Full Parameter Tuning for Federated Large Language Models via Cycle Block Gradient Descent [15.463595798992621]
大規模言語モデル(LLM)はディープラーニングパラダイムに革命をもたらし、幅広いタスクで印象的な結果をもたらしている。
既存のソリューションは、モデル全体がトレーニングのために交換されるという非現実的な仮定を定めている。
本稿では,資源消費を最小限に抑えつつ,FLにおけるLLMの効率的なトレーニングと微調整を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T03:49:44Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Exploring Parameter-Efficient Fine-Tuning Techniques for Code Generation with Large Language Models [11.845239346943067]
パラメータ効率のよい微調整(PEFT)は、大規模言語モデル(LLM)をタスク固有のデータに効率的に専門化するための有望なアプローチである。
本研究は,PEFTと量子化を組み合わせることで,より大きなLCMをチューニングし,メモリ使用量を大幅に削減する可能性を明らかにする。
論文 参考訳(メタデータ) (2023-08-21T04:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。