論文の概要: ROMA: a Read-Only-Memory-based Accelerator for QLoRA-based On-Device LLM
- arxiv url: http://arxiv.org/abs/2503.12988v1
- Date: Mon, 17 Mar 2025 09:44:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:59:02.627971
- Title: ROMA: a Read-Only-Memory-based Accelerator for QLoRA-based On-Device LLM
- Title(参考訳): ROMA: QLoRAベースのオンデバイスLCMのためのリードオンメモリベースのアクセラレータ
- Authors: Wenqiang Wang, Yijia Zhang, Zikai Zhang, Guanting Huo, Hao Liang, Shijie Cao, Ningyi Xu,
- Abstract要約: ROMAは、ROMを量子化されたベースモデルとLoRA重みとKVキャッシュに使用するハイブリッドストレージアーキテクチャである。
LoRAモジュールは、ベースモデルのアップデートを必要とせずに、新しいデータに適応する柔軟性を提供する。
ROMAは、4ビットの3Bと2ビットの8B LLaMAモデルを完全にオンチップで保存することができ、外部メモリを必要とせずに2万トークン/秒を超える顕著な生成速度を達成することができる。
- 参考スコア(独自算出の注目度): 4.810245343774232
- License:
- Abstract: As large language models (LLMs) demonstrate powerful capabilities, deploying them on edge devices has become increasingly crucial, offering advantages in privacy and real-time interaction. QLoRA has emerged as the standard approach for on-device LLMs, leveraging quantized models to reduce memory and computational costs while utilizing LoRA for task-specific adaptability. In this work, we propose ROMA, a QLoRA accelerator with a hybrid storage architecture that uses ROM for quantized base models and SRAM for LoRA weights and KV cache. Our insight is that the quantized base model is stable and converged, making it well-suited for ROM storage. Meanwhile, LoRA modules offer the flexibility to adapt to new data without requiring updates to the base model. To further reduce the area cost of ROM, we introduce a novel B-ROM design and integrate it with the compute unit to form a fused cell for efficient use of chip resources. ROMA can effectively store both a 4-bit 3B and a 2-bit 8B LLaMA model entirely on-chip, achieving a notable generation speed exceeding 20,000 tokens/s without requiring external memory.
- Abstract(参考訳): 大きな言語モデル(LLM)が強力な能力を示すにつれ、エッジデバイスにそれらをデプロイすることがますます重要になり、プライバシとリアルタイムインタラクションのアドバンテージを提供するようになった。
QLoRA はオンデバイス LLM の標準的アプローチとして登場し、量子化モデルを利用してメモリと計算コストを削減し、タスク固有の適応性に LoRA を利用する。
本稿では,ROMを量子化ベースモデルとし,SRAMをLORA重みとKVキャッシュに用いるハイブリッドストレージアーキテクチャを備えたQLoRAアクセラレータROMAを提案する。
我々の洞察では、量子化されたベースモデルは安定して収束しており、ROMストレージに適している。
一方、LoRAモジュールは、ベースモデルのアップデートを必要とせずに、新しいデータに適応する柔軟性を提供する。
ROMの面積コストをさらに削減するために,新しいB-ROM設計を導入し,それを演算ユニットに統合し,チップ資源を効率的に利用するための融合セルを形成する。
ROMAは、4ビットの3Bと2ビットの8B LLaMAモデルを完全にオンチップで保存することができ、外部メモリを必要とせずに2万トークン/秒を超える顕著な生成速度を達成することができる。
関連論文リスト
- DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Ripple: Accelerating LLM Inference on Smartphones with Correlation-Aware Neuron Management [22.908079935647073]
大規模言語モデル(LLM)は、さまざまな領域で大きな成功を収めていますが、モバイルデバイスにデプロイすることは難しい課題です。
我々は、フラッシュメモリにおけるニューロン配置を最適化することにより、スマートフォン上でのLSM推論を高速化する新しいアプローチであるRippleを提案する。
私たちは、Rippleが最先端と比較して最大5.93倍のI/Oレイテンシ改善を実現していることを実証した。
論文 参考訳(メタデータ) (2024-10-25T03:01:19Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - LLM in a flash: Efficient Large Language Model Inference with Limited Memory [19.668719251238176]
大規模言語モデル(LLM)は現代の自然言語処理の中心であり、様々なタスクにおいて例外的なパフォーマンスを提供する。
本稿では,利用可能なDRAM容量を超えるLLMを効率的に動作させるという課題に対処する。
本手法は,フラッシュメモリの特性を考慮した推論コストモデルの構築を含む。
論文 参考訳(メタデータ) (2023-12-12T18:57:08Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。
実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。
CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文 参考訳(メタデータ) (2023-07-15T04:37:11Z) - RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on
Edge [1.8293684411977293]
エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムを低コストで低消費電力で実装する必要があるため、難しい。
エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANを紹介します。
論文 参考訳(メタデータ) (2023-06-10T17:25:58Z) - IMBUE: In-Memory Boolean-to-CUrrent Inference ArchitecturE for Tsetlin
Machines [5.6634493664726495]
機械学習(ML)アプリケーションのためのインメモリコンピューティングは、並列性と局所性を活用するために計算を整理することで、フォン・ノイマンのボトルネックを修復する。
Resistive RAM(ReRAM)のような不揮発性メモリデバイスは、MLアプリケーションに有望なパフォーマンスを示す、統合的なスイッチングとストレージ機能を提供する。
本稿では,ReRAMトランジスタセルを用いたメモリ内Boolean-to-Current Inference Architecture (IMBUE)を提案する。
論文 参考訳(メタデータ) (2023-05-22T10:55:01Z) - Physics Guided Machine Learning for Variational Multiscale Reduced Order
Modeling [58.720142291102135]
本稿では,最小の計算コストで低次モデル(ROM)の精度を向上させるために,新しい物理誘導機械学習(PGML)パラダイムを提案する。
ROM基底の階層構造と変分マルチスケール(VMS)フレームワークは、解決されたROM空間スケールと未解決ROM空間スケールの自然な分離を可能にする。
現代的なPGMLアルゴリズムは、解決された、未解決のROMスケール間の相互作用のための新しいモデルを構築するために使用される。
論文 参考訳(メタデータ) (2022-05-25T00:07:57Z) - Plinius: Secure and Persistent Machine Learning Model Training [2.1375296464337086]
永続メモリ(PM)は(DRAMとは違い)電力損失に耐性がある
MLモデルの安全なトレーニングにIntel SGXエンクレーブを使用するフレームワークであるPLINIUSと、フォールトトレランス保証にPMを提案する。
論文 参考訳(メタデータ) (2021-04-07T08:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。