論文の概要: Optimizing LLMs Using Quantization for Mobile Execution
- arxiv url: http://arxiv.org/abs/2512.06490v1
- Date: Sat, 06 Dec 2025 16:31:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.382401
- Title: Optimizing LLMs Using Quantization for Mobile Execution
- Title(参考訳): モバイル実行のための量子化を用いたLCMの最適化
- Authors: Agatsya Yadav, Renta Chintala Bhargavi,
- Abstract要約: 大きな言語モデル(LLM)は強力な機能を提供しますが、その大きなサイズと計算上の要求により、リソースに制約のあるモバイルデバイスへのデプロイが妨げられます。
本稿では,モバイル実行のためのLLM圧縮のためのPTQ(Post-Training Quantization)について検討する。
本稿では,BitsAndBytesライブラリとHugging Face Transformersフレームワークを用いた4ビットPTQをMetaのLlama 3.2 3Bモデルに適用する。
量子化モデルは、最適化されたモバイル推論のためのラマツールを使用してGGUFフォーマットに変換される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) offer powerful capabilities, but their significant size and computational requirements hinder deployment on resource-constrained mobile devices. This paper investigates Post-Training Quantization (PTQ) for compressing LLMs for mobile execution. We apply 4-bit PTQ using the BitsAndBytes library with the Hugging Face Transformers framework to Meta's Llama 3.2 3B model. The quantized model is converted to GGUF format using llama.cpp tools for optimized mobile inference. The PTQ workflow achieves a 68.66% reduction in model size through 4-bit quantization, enabling the Llama 3.2 3B model to run efficiently on an Android device. Qualitative validation shows that the 4-bit quantized model can perform inference tasks successfully. We demonstrate the feasibility of running the quantized GGUF model on an Android device using the Termux environment and the Ollama framework. PTQ, especially at 4-bit precision combined with mobile-optimized formats like GGUF, provides a practical pathway for deploying capable LLMs on mobile devices, balancing model size and performance.
- Abstract(参考訳): 大きな言語モデル(LLM)は強力な機能を提供しますが、その大きなサイズと計算上の要求により、リソースに制約のあるモバイルデバイスへのデプロイが妨げられます。
本稿では,モバイル実行のためのLLM圧縮のためのPTQ(Post-Training Quantization)について検討する。
本稿では,BitsAndBytesライブラリとHugging Face Transformersフレームワークを用いた4ビットPTQをMetaのLlama 3.2 3Bモデルに適用する。
量子化モデルは、最適化されたモバイル推論のためにllama.cppツールを使用してGGUFフォーマットに変換される。
PTQワークフローは4ビット量子化による68.66%のモデルサイズ削減を実現し、Llama 3.2 3BモデルをAndroidデバイス上で効率的に動作させることができる。
定性検証は、4ビットの量子化モデルが推論タスクをうまく実行可能であることを示している。
Termux環境とOllamaフレームワークを用いて,Androidデバイス上で量子化GGUFモデルを実行する可能性を示す。
PTQは、特に4ビットの精度で、GGUFのようなモバイル最適化フォーマットと組み合わせることで、モバイルデバイスに実行可能なLCMをデプロイし、モデルのサイズと性能のバランスをとるための実用的な経路を提供する。
関連論文リスト
- UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs [22.43695132973238]
学習後量子化と低ランク圧縮を一体化したUniQLを導入し,エッジLLMのデバイス上でのプルーニングレートについて述べる。
UniQLは、Transformers、State Space Models(SSM)、ハイブリッドモデルの量子化と低ランク圧縮を統合する一般的なフレームワークである。
当社のフレームワークは,シングルパスワークフローにおいて,クラウド上でウェイトソート,微調整,量子化を行うと同時に,デバイス上でのプルーニングレートを最大35%まで向上させる。
論文 参考訳(メタデータ) (2025-12-03T02:33:39Z) - MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe [68.04078852416248]
MiniCPM-V 4.5は8Bパラメータモデルであり、高効率で高性能に設計されている。
本稿では,モデルアーキテクチャ,データストラテジー,トレーニング手法の3つの改良点を紹介する。
MiniCPM-V 4.5は30B以下のモデル間で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-09-16T19:41:48Z) - MiniCPM4: Ultra-Efficient LLMs on End Devices [126.22958722174583]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。
この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。
論文 参考訳(メタデータ) (2025-06-09T16:16:50Z) - BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices [35.44626025003408]
本稿では,MLLMのモバイルプラットフォームへの効率的なデプロイに適した,アルゴリズムとシステムの共同設計手法であるBlueLM-V-3Bを提案する。
小型サイズ: BlueLM-V-3Bは2.7Bパラメータを持つ言語モデルと400Mパラメータを持つエンコーダビジョンを備えている。
高速: BlueLM-V-3Bは、MediaTek Dimensity 9300プロセッサの24.4トークン/秒で4ビットLLMの量子化を実現している。
論文 参考訳(メタデータ) (2024-11-16T00:14:51Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - Bilaterally Slimmable Transformer for Elastic and Efficient Visual
Question Answering [75.86788916930377]
左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。
1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。
最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
論文 参考訳(メタデータ) (2022-03-24T02:26:04Z) - PROFIT: A Novel Training Method for sub-4-bit MobileNet Models [14.328192808415853]
4ビット以下の精度のモバイルモデルは、モバイルデバイスのエネルギー効率向上に対する需要がますます高まっているため必要である。
重み量子化(AIWQ)によって誘導される活性化不安定性が,移動ネットワークのサブ4ビット量子化の鍵となる。
AIWQ問題を緩和するために,PROFIT(Progressive-Freezing Iterative Training)と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-08-11T13:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。