論文の概要: Unlocking the Edge deployment and ondevice acceleration of multi-LoRA enabled one-for-all foundational LLM
- arxiv url: http://arxiv.org/abs/2604.18655v2
- Date: Fri, 24 Apr 2026 17:19:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 13:34:22.018153
- Title: Unlocking the Edge deployment and ondevice acceleration of multi-LoRA enabled one-for-all foundational LLM
- Title(参考訳): 複数LORAのエッジ展開とオンデバイスアクセラレーションのロック解除による一対一基本LDMの実現
- Authors: Sravanth Kodavanti, Sowmya Vajrala, Srinivas Miriyala, Utsav Tiwari, Uttam Kumar, Utkarsh Kumar Mahawar, Achal Pratap Singh, Arya D, Narendra Mutyala, Vikram Nelvoy Rajendiran, Sharan Kumar Allur, Euntaik Lee, Dohyoung Kim, HyeonSu Lee, Gyusung Cho, JungBae Kim,
- Abstract要約: 我々は,Samsung Galaxy S24およびS25デバイス上でのLLaMAに基づく多言語基盤モデルのデバイス上での効率的な推論のためのハードウェア・アウェア・フレームワークを提案する。
本システムでは,9言語と8タスクの精度を維持しながら,メモリとレイテンシの全体的な4~6倍の改善を実現している。
- 参考スコア(独自算出の注目度): 6.75883098679462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying large language models (LLMs) on smartphones poses significant engineering challenges due to stringent constraints on memory, latency, and runtime flexibility. In this work, we present a hardware-aware framework for efficient on-device inference of a LLaMA-based multilingual foundation model supporting multiple use cases on Samsung Galaxy S24 and S25 devices with SM8650 and SM8750 Qualcomm chipsets respectively. Our approach integrates application-specific LoRAs as runtime inputs to a single frozen inference graph, enabling dynamic task switching without recompilation or memory overhead. We further introduce a multi-stream decoding mechanism that concurrently generates stylistic variations - such as formal, polite, or jovial responses - within a single forward pass, reducing latency by up to 6x. To accelerate token generation, we apply Dynamic Self-Speculative Decoding (DS2D), a tree-based strategy that predicts future tokens without requiring a draft model, yielding up to 2.3x speedup in decode time. Combined with quantization to INT4 and architecture-level optimizations, our system achieves 4-6x overall improvements in memory and latency while maintaining accuracy across 9 languages and 8 tasks. These results demonstrate practical feasibility of deploying multi-use-case LLMs on edge devices, advancing the commercial viability of Generative AI in mobile platforms.
- Abstract(参考訳): スマートフォンに大規模言語モデル(LLM)をデプロイすることは、メモリ、レイテンシ、ランタイムの柔軟性に厳しい制約があるため、エンジニアリング上の大きな課題となる。
本研究では,Samsung Galaxy S24およびS25デバイスにおけるSM8650およびSM8750 Qualcommチップセットの複数のユースケースをサポートするLLaMAベースの多言語基盤モデルのデバイス上での効率的な推論のためのハードウェア対応フレームワークを提案する。
提案手法では,アプリケーション固有のLoRAを実行時入力として単一の凍結推論グラフに統合し,再コンパイルやメモリオーバーヘッドを伴わずに動的タスク切替を可能にする。
さらに,複数ストリームの復号化機構を導入し,形式的,丁寧な応答,ジュビアル応答などのスタイリスティックな変動を1回のフォワードパスで同時に生成し,レイテンシを最大6倍に削減する。
トークン生成を高速化するために,動的自己投機的復号法(DS2D)を適用した。
INT4の量子化とアーキテクチャレベルの最適化を組み合わせたシステムでは,9言語と8タスクの精度を維持しながら,メモリとレイテンシの全体的な4~6倍の改善を実現している。
これらの結果は、エッジデバイスにマルチユースケースLSMをデプロイし、モバイルプラットフォームにおけるジェネレーティブAIの商業的実現性を向上させるための現実的な実現可能性を示している。
関連論文リスト
- SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving [7.69991252191073]
acronymは、軽量エッジデバイスが様々なドラフトモデルを使用して、複数の候補トークンをローカルにドラフトできるフレームワークである。
単一の共有エッジサーバは、より正確なターゲットモデルを用いてトークンを検証する。
Jetson Orin Nano、Raspberry Pi 4B/5、Nvidia A100 GPUを搭載したエッジサーバを使った最初の実験は、大きなメリットを示している。
論文 参考訳(メタデータ) (2025-06-11T04:55:54Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。
PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。
評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-03-15T15:11:17Z) - Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs on the Edge [43.80424946723794]
大きな言語モデル(LLM)は、複雑な言語モデリングタスクにおける印象的なパフォーマンスで際立っている。
近年の研究では、エンド・ツー・エンドのタスク性能に最小限の影響を伴って、8ビット以下のウェイト量子化が可能であることが示されている。
我々は、人気のある大規模言語モデルのためのアクティベーション誘導量子化フレームワークであるAgile-Quantを提案する。
論文 参考訳(メタデータ) (2023-12-09T22:12:52Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。