論文の概要: SLMQuant:Benchmarking Small Language Model Quantization for Practical Deployment
- arxiv url: http://arxiv.org/abs/2511.13023v1
- Date: Mon, 17 Nov 2025 06:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.717297
- Title: SLMQuant:Benchmarking Small Language Model Quantization for Practical Deployment
- Title(参考訳): SLMQuant: 実践的なデプロイのための小さな言語モデル量子化のベンチマーク
- Authors: Jiacheng Wang, Yejun Zeng, Jinyang Guo, Yuqing Ma, Aishan Liu, Xianglong Liu,
- Abstract要約: SLMQuantは,Small Language Models (SLM) に適用した場合に圧縮技術を評価するための最初の体系的ベンチマークである。
我々は,SLM上での最先端量子化手法の動作を解析する。
有効なSLM量子化を規定する重要な要因を特定し,SLM調整圧縮のための実用的な設計原理を提案する。
- 参考スコア(独自算出の注目度): 45.23402877397396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the growing interest in Small Language Models (SLMs) as resource-efficient alternatives to Large Language Models (LLMs), their deployment on edge devices remains challenging due to unresolved efficiency gaps in model compression. While quantization has proven effective for LLMs, its applicability to SLMs is significantly underexplored, with critical questions about differing quantization bottlenecks and efficiency profiles. This paper introduces SLMQuant, the first systematic benchmark for evaluating LLM compression techniques when applied to SLMs. Through comprehensive multi-track evaluations across diverse architectures and tasks, we analyze how state-of-the-art quantization methods perform on SLMs. Our findings reveal fundamental disparities between SLMs and LLMs in quantization sensitivity, demonstrating that direct transfer of LLM-optimized techniques leads to suboptimal results due to SLMs' unique architectural characteristics and training dynamics. We identify key factors governing effective SLM quantization and propose actionable design principles for SLM-tailored compression. SLMQuant establishes a foundational framework for advancing efficient SLM deployment on low-end devices in edge applications, and provides critical insights for deploying lightweight language models in resource-constrained scenarios.
- Abstract(参考訳): LLM(Large Language Models)に代わるリソース効率の代替手段として、Small Language Models (SLM) への関心が高まっているが、モデル圧縮における未解決の効率ギャップのため、エッジデバイスへの展開は依然として困難である。
量子化はLLMに有効であることが証明されているが、SLMへの適用性は明らかに過小評価されており、量子化のボトルネックと効率プロファイルの相違について批判的な疑問がある。
本稿では,SLM に適用した場合に LLM 圧縮技術を評価するための最初の体系的ベンチマークである SLMQuant を紹介する。
多様なアーキテクチャやタスクにわたる総合的なマルチトラック評価を通じて,SLM上での最先端の量子化手法の動作を解析する。
本研究により, 量子化感度におけるSLMとLLMの相違が明らかとなり, LLM最適化技術の直接移動は, SLMの特異なアーキテクチャ特性とトレーニング力学により, 最適以下の結果をもたらすことが示された。
有効なSLM量子化を規定する重要な要因を特定し,SLM調整圧縮のための実用的な設計原理を提案する。
SLMQuantは、エッジアプリケーションにおけるローエンドデバイスへの効率的なSLMデプロイメントを促進するための基盤となるフレームワークを確立し、リソース制約のあるシナリオに軽量言語モデルをデプロイするための重要な洞察を提供する。
関連論文リスト
- NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints [100.02131897927484]
本稿では,Multimodal Large Language Models(MLLM)のエンドツーエンドなネイティブトレーニングに焦点を当てる。
そこで我々は,NaViLと呼ばれるネイティブMLLMと,シンプルで費用対効果の高いレシピを組み合わせて提案する。
14のマルチモーダルベンチマークによる実験結果から,既存のMLLMに対するNaViLの競合性能が確認された。
論文 参考訳(メタデータ) (2025-10-09T17:59:37Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment [12.80921403367322]
大規模言語モデル(LLM)は、様々な領域で例外的なパフォーマンスを示す。
LLMのサイズとメモリ要件を削減した量子化技術は、リソース制限されたエッジデバイスにLLMをデプロイするのに有効である。
適応量子化システムLSAQ(Layer-Specific Adaptive Quantization)を提案する。
論文 参考訳(メタデータ) (2024-12-24T03:43:15Z) - AgentPS: Agentic Process Supervision for Content Moderation with Multimodal LLMs [9.35901507816989]
本稿では,Agentic Process Supervisionを大規模言語モデルに統合するフレームワークであるAgentPSを紹介する。
我々は、AgentPSが、公開ベンチマークとプロプライエタリデータセットのベースラインMLLMよりも大幅に改善されていることを示す。
これらの結果は、大規模産業アプリケーションにおける複雑なマルチモーダル分類のためのスケーラブルで効果的なソリューションとして、AgentPSを確立している。
論文 参考訳(メタデータ) (2024-12-15T04:58:00Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - A Comprehensive Evaluation of Quantization Strategies for Large Language Models [42.03804933928227]
大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。
モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。
本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T17:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。