論文の概要: EmbBERT-Q: Breaking Memory Barriers in Embedded NLP
- arxiv url: http://arxiv.org/abs/2502.10001v1
- Date: Fri, 14 Feb 2025 08:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:02.747840
- Title: EmbBERT-Q: Breaking Memory Barriers in Embedded NLP
- Title(参考訳): EmbBERT-Q:組み込みNLPにおけるメモリバリアの破壊
- Authors: Riccardo Bravin, Massimo Pavan, Hazem Hesham Yousef Shalby, Fabrizio Pittorino, Manuel Roveri,
- Abstract要約: EmbBERT-Qは、メモリ制約の厳しい小さなデバイス向けに特別に設計された、新しい小さな言語モデルである。
アーキテクチャの革新とハードウェア互換の8ビット量子化を組み合わせることで、EmbBERT-Qは一貫して2MBのメモリ予算までスケールダウンされたいくつかのベースラインモデルより優れている。
- 参考スコア(独自算出の注目度): 3.1781777694121187
- License:
- Abstract: Large Language Models (LLMs) have revolutionized natural language processing, setting new standards across a wide range of applications. However, their relevant memory and computational demands make them impractical for deployment on technologically-constrained tiny devices such as wearable devices and Internet-of-Things units. To address this limitation, we introduce EmbBERT-Q, a novel tiny language model specifically designed for tiny devices with stringent memory constraints. EmbBERT-Q achieves state-of-the-art (SotA) accuracy in Natural Language Processing tasks in this scenario, with a total memory footprint (weights and activations) of just 781 kB, representing a 25x reduction in size with respect to SotA models. By combining architectural innovations with hardware-compatible 8-bit quantization, EmbBERT-Q consistently outperforms several baseline models scaled down to a 2 MB memory budget (i.e., the maximum memory typically available in tiny devices), including heavily compressed versions of BERT and MAMBA. Extensive experimental evaluations on both a selected benchmark dataset, TinyNLP, specifically curated to evaluate Tiny Language Models in NLP tasks and real-world scenarios, and the GLUE benchmark, demonstrate EmbBERT-Q ability to deliver competitive accuracy with respect to existing approaches, achieving an unmatched balance between memory and performance. To ensure the complete and immediate reproducibility of all our results, we release all code, scripts, and model checkpoints at https://github.com/RiccardoBravin/tiny-LLM.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理に革命をもたらし、幅広いアプリケーションにまたがる新しい標準を設定している。
しかしながら、それらの関連するメモリと計算要求は、ウェアラブルデバイスやインターネット・オブ・Thingsユニットのような技術的に制限された小さなデバイスへのデプロイにおいて実用的ではない。
EmbBERT-Qは,メモリ制約の厳しい小さなデバイス向けに設計された,新しい言語モデルである。
EmbBERT-Qはこのシナリオにおいて、自然言語処理タスクにおける最先端(SotA)の精度を達成し、メモリフットプリント(重みとアクティベーション)は781kBで、SotAモデルに対する25倍の縮小を示している。
アーキテクチャの革新とハードウェア互換の8ビット量子化を組み合わせることで、EmbBERT-Qは、BERTとMAMBAの高度に圧縮されたバージョンを含む、2MBのメモリ予算にスケールダウンされたいくつかのベースラインモデル(つまり、小さなデバイスで一般的に利用可能な最大メモリ)を一貫して上回っている。
選択されたベンチマークデータセット、特にNLPタスクと実世界のシナリオでTiny言語モデルを評価するためにキュレーションされたTinyNLPと、GLUEベンチマークの両方に関する大規模な実験的評価は、既存のアプローチに関して競合する精度を提供するEmbBERT-Q能力を実証し、メモリとパフォーマンスのバランスが整っていないことを証明している。
すべての結果の完全かつ即時再現性を確保するため、私たちはhttps://github.com/RiccardoBravin/tiny-LLMですべてのコード、スクリプト、モデルチェックポイントをリリースします。
関連論文リスト
- EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - pNLP-Mixer: an Efficient all-MLP Architecture for Language [10.634940525287014]
オンデバイスNLPのためのpNLP-Mixerモデルは、新しいプロジェクション層により高い重量効率を実現する。
MTOPとMultiATISの2つの多言語意味解析データセットに対して,pNLP-Mixerモデルの評価を行った。
私たちのモデルは、MTOPで最大7.8%のマージンで、2倍の大きさの小さなモデルの最先端を一貫して打ち負かしています。
論文 参考訳(メタデータ) (2022-02-09T09:01:29Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z) - KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with
Learned Step Size Quantization [1.9786767260073905]
BERTのようなトランスフォーマーベースの言語モデルでは、さまざまな自然言語処理タスクのパフォーマンスが大幅に向上している。
言語モデル量子化のための知識蒸留(KD)と学習ステップサイズ量子化(LSQ)を組み合わせた新しい量子化手法KDLSQ-BERTを提案する。
論文 参考訳(メタデータ) (2021-01-15T02:21:28Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。