Fugu-MT 論文翻訳(概要): ROMA: a Read-Only-Memory-based Accelerator for QLoRA-based On-Device LLM

論文の概要: ROMA: a Read-Only-Memory-based Accelerator for QLoRA-based On-Device LLM

arxiv url: http://arxiv.org/abs/2503.12988v1
Date: Mon, 17 Mar 2025 09:44:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:58.209526
Title: ROMA: a Read-Only-Memory-based Accelerator for QLoRA-based On-Device LLM
Title（参考訳）: ROMA: QLoRAベースのオンデバイスLCMのためのリードオンメモリベースのアクセラレータ
Authors: Wenqiang Wang, Yijia Zhang, Zikai Zhang, Guanting Huo, Hao Liang, Shijie Cao, Ningyi Xu,
Abstract要約: ROMAは、ROMを量子化されたベースモデルとLoRA重みとKVキャッシュに使用するハイブリッドストレージアーキテクチャである。 LoRAモジュールは、ベースモデルのアップデートを必要とせずに、新しいデータに適応する柔軟性を提供する。 ROMAは、4ビットの3Bと2ビットの8B LLaMAモデルを完全にオンチップで保存することができ、外部メモリを必要とせずに2万トークン/秒を超える顕著な生成速度を達成することができる。
参考スコア（独自算出の注目度）: 4.810245343774232
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) demonstrate powerful capabilities, deploying them on edge devices has become increasingly crucial, offering advantages in privacy and real-time interaction. QLoRA has emerged as the standard approach for on-device LLMs, leveraging quantized models to reduce memory and computational costs while utilizing LoRA for task-specific adaptability. In this work, we propose ROMA, a QLoRA accelerator with a hybrid storage architecture that uses ROM for quantized base models and SRAM for LoRA weights and KV cache. Our insight is that the quantized base model is stable and converged, making it well-suited for ROM storage. Meanwhile, LoRA modules offer the flexibility to adapt to new data without requiring updates to the base model. To further reduce the area cost of ROM, we introduce a novel B-ROM design and integrate it with the compute unit to form a fused cell for efficient use of chip resources. ROMA can effectively store both a 4-bit 3B and a 2-bit 8B LLaMA model entirely on-chip, achieving a notable generation speed exceeding 20,000 tokens/s without requiring external memory.
Abstract（参考訳）: 大きな言語モデル(LLM)が強力な能力を示すにつれ、エッジデバイスにそれらをデプロイすることがますます重要になり、プライバシとリアルタイムインタラクションのアドバンテージを提供するようになった。 QLoRA はオンデバイス LLM の標準的アプローチとして登場し、量子化モデルを利用してメモリと計算コストを削減し、タスク固有の適応性に LoRA を利用する。本稿では,ROMを量子化ベースモデルとし,SRAMをLORA重みとKVキャッシュに用いるハイブリッドストレージアーキテクチャを備えたQLoRAアクセラレータROMAを提案する。我々の洞察では、量子化されたベースモデルは安定して収束しており、ROMストレージに適している。一方、LoRAモジュールは、ベースモデルのアップデートを必要とせずに、新しいデータに適応する柔軟性を提供する。 ROMの面積コストをさらに削減するために,新しいB-ROM設計を導入し,それを演算ユニットに統合し,チップ資源を効率的に利用するための融合セルを形成する。 ROMAは、4ビットの3Bと2ビットの8B LLaMAモデルを完全にオンチップで保存することができ、外部メモリを必要とせずに2万トークン/秒を超える顕著な生成速度を達成することができる。

関連論文リスト

AutoLoRA: Automatic LoRA Retrieval and Fine-Grained Gated Fusion for Text-to-Image Generation [32.46570968627392]
低ランク適応(LoRA)は、最小パラメータオーバーヘッドでモデルのカスタマイズを可能にする効果を実証している。意味駆動型LoRA検索と動的アグリゲーションを可能にする新しいフレームワークを提案する。提案手法は画像生成のパーフェマンスを大幅に改善する。
論文参考訳（メタデータ） (2025-08-04T06:36:00Z)
SmallThinker: A Family of Efficient Large Language Models Natively Trained for Local Deployment [5.141876811512978]
SmallThinkerは、ローカルデバイス向けに設計された大型言語モデル(LLM)のファミリーである。本研究では,微細なMixture-of-Experts(MoE)とスパースフィードフォワードネットワークを組み合わせた2レベルスパース構造を提案する。我々はSmallThinker-4B-A0.6BとSmallThinker-21B-A3Bをリリースした。
論文参考訳（メタデータ） (2025-07-28T16:45:14Z)
EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction [23.69537251732286]
オープンソースファウンデーションモデルは急速に採用され開発され、多様なドメインにまたがる強力な汎用機能を実現している。しかし、ドメイン固有のタスクやパーソナライズされたタスクのための微調整された大規模な基礎モデルは、推論以上のメモリオーバーヘッドのため、ほとんどのユーザにとって高価である。我々は,LoRA補正を用いたエミュレータベースのメモリ効率の高い微調整フレームワークであるoCを導入し,推論に要する同じメモリ予算内でモデル微調整を可能にする。
論文参考訳（メタデータ） (2025-06-13T17:59:58Z)
L3: DIMM-PIM Integrated Architecture and Coordination for Scalable Long-Context LLM Inference [6.886434948681708]
大きな言語モデル(LLM)では、長いテキストシーケンスの処理がますます必要になるが、GPUメモリの制限により、メモリ容量と帯域幅のトレードオフが困難になる。重要なメモリボトルネックは、マルチヘッドアテンションの復号フェーズにある。本稿では,DIMM-PIMとGPUデバイスを統合したハードウェア・ソフトウェア共同設計システムであるL3を提案する。
論文参考訳（メタデータ） (2025-04-24T14:14:07Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
LLM in a flash: Efficient Large Language Model Inference with Limited Memory [19.668719251238176]
大規模言語モデル(LLM)は現代の自然言語処理の中心であり、様々なタスクにおいて例外的なパフォーマンスを提供する。本稿では,利用可能なDRAM容量を超えるLLMを効率的に動作させるという課題に対処する。本手法は,フラッシュメモリの特性を考慮した推論コストモデルの構築を含む。
論文参考訳（メタデータ） (2023-12-12T18:57:08Z)
S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文参考訳（メタデータ） (2023-11-06T17:26:17Z)
CA-LoRA: Adapting Existing LoRA for Compressed LLMs to Enable Efficient Multi-Tasking on Personal Devices [78.16679232748196]
本稿では,Large Language Models (LLM) を他のタスクに転送するための圧縮対応 LoRA (CA-LoRA) フレームワークを提案する。実験の結果,CA-LoRAは圧縮LDMに適用したバニラロラ法よりも優れていた。 CA-LoRAのソースコードはhttps://github.com/thunlp/CA-LoRAで公開されている。
論文参考訳（メタデータ） (2023-07-15T04:37:11Z)
RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on Edge [1.8293684411977293]
エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムを低コストで低消費電力で実装する必要があるため、難しい。エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANを紹介します。
論文参考訳（メタデータ） (2023-06-10T17:25:58Z)
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。 AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文参考訳（メタデータ） (2023-06-01T17:59:10Z)
IMBUE: In-Memory Boolean-to-CUrrent Inference ArchitecturE for Tsetlin Machines [5.6634493664726495]
機械学習(ML)アプリケーションのためのインメモリコンピューティングは、並列性と局所性を活用するために計算を整理することで、フォン・ノイマンのボトルネックを修復する。 Resistive RAM(ReRAM)のような不揮発性メモリデバイスは、MLアプリケーションに有望なパフォーマンスを示す、統合的なスイッチングとストレージ機能を提供する。本稿では,ReRAMトランジスタセルを用いたメモリ内Boolean-to-Current Inference Architecture (IMBUE)を提案する。
論文参考訳（メタデータ） (2023-05-22T10:55:01Z)
Physics Guided Machine Learning for Variational Multiscale Reduced Order Modeling [58.720142291102135]
本稿では,最小の計算コストで低次モデル(ROM)の精度を向上させるために,新しい物理誘導機械学習(PGML)パラダイムを提案する。 ROM基底の階層構造と変分マルチスケール(VMS)フレームワークは、解決されたROM空間スケールと未解決ROM空間スケールの自然な分離を可能にする。現代的なPGMLアルゴリズムは、解決された、未解決のROMスケール間の相互作用のための新しいモデルを構築するために使用される。
論文参考訳（メタデータ） (2022-05-25T00:07:57Z)
Plinius: Secure and Persistent Machine Learning Model Training [2.1375296464337086]
永続メモリ(PM)は(DRAMとは違い)電力損失に耐性がある MLモデルの安全なトレーニングにIntel SGXエンクレーブを使用するフレームワークであるPLINIUSと、フォールトトレランス保証にPMを提案する。
論文参考訳（メタデータ） (2021-04-07T08:35:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。