論文の概要: From Bits to Chips: An LLM-based Hardware-Aware Quantization Agent for Streamlined Deployment of LLMs
- arxiv url: http://arxiv.org/abs/2601.03484v1
- Date: Wed, 07 Jan 2026 00:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.160568
- Title: From Bits to Chips: An LLM-based Hardware-Aware Quantization Agent for Streamlined Deployment of LLMs
- Title(参考訳): ビットからチップへ:LLMの合理化のためのハードウェア対応量子化エージェント
- Authors: Kaiyuan Deng, Hangyu Zheng, Minghai Qing, Kunxiong Zhu, Gen Li, Yang Xiao, Lan Emily Zhang, Linke Guo, Bo Hui, Yanzhi Wang, Geng Yuan, Gagan Agrawal, Wei Niu, Xiaolong Ma,
- Abstract要約: ハードウェア・アウェア・量子化エージェント(HAQA)を導入し、量子化と展開プロセスの合理化を図る。
結果は、スループットの向上と精度の向上とともに、推論の2.3倍のスピードアップを示す。
- 参考スコア(独自算出の注目度): 43.33830246397275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying models, especially large language models (LLMs), is becoming increasingly attractive to a broader user base, including those without specialized expertise. However, due to the resource constraints of certain hardware, maintaining high accuracy with larger model while meeting the hardware requirements remains a significant challenge. Model quantization technique helps mitigate memory and compute bottlenecks, yet the added complexities of tuning and deploying quantized models further exacerbates these challenges, making the process unfriendly to most of the users. We introduce the Hardware-Aware Quantization Agent (HAQA), an automated framework that leverages LLMs to streamline the entire quantization and deployment process by enabling efficient hyperparameter tuning and hardware configuration, thereby simultaneously improving deployment quality and ease of use for a broad range of users. Our results demonstrate up to a 2.3x speedup in inference, along with increased throughput and improved accuracy compared to unoptimized models on Llama. Additionally, HAQA is designed to implement adaptive quantization strategies across diverse hardware platforms, as it automatically finds optimal settings even when they appear counterintuitive, thereby reducing extensive manual effort and demonstrating superior adaptability. Code will be released.
- Abstract(参考訳): モデル、特に大きな言語モデル(LLM)のデプロイは、専門知識のない人を含む幅広いユーザベースにとって、ますます魅力的になっています。
しかしながら、特定のハードウェアのリソース制約のため、ハードウェア要件を満たしながら、より大きなモデルで高い精度を維持することは大きな課題である。
モデル量子化技術は、メモリと計算ボトルネックを軽減するのに役立つが、量子化されたモデルのチューニングとデプロイの複雑さがこれらの課題をさらに悪化させ、プロセスがほとんどのユーザにとって不都合になる。
ハードウェア・アウェア・量子化エージェント(HAQA)は、LLMを活用して、効率的なハイパーパラメータチューニングとハードウェア構成を実現し、広い範囲のユーザに対するデプロイメント品質と使いやすさを同時に改善することにより、量子化とデプロイメントプロセス全体を合理化する自動化フレームワークである。
その結果、Llamaの最適化されていないモデルと比較して、スループットの向上と精度の向上とともに、推論の2.3倍の高速化が示された。
さらにHAQAは、さまざまなハードウェアプラットフォームにまたがる適応的な量子化戦略を実装するように設計されている。
コードはリリースされる。
関連論文リスト
- IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Experts [28.9807389592324]
機械学習のワークフローを自動化するための有望なソリューションとして、大規模言語モデル(LLM)エージェントが登場した。
LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを紹介します。
実際のトレーニングフィードバックに基づいて個々のコンポーネントを体系的に更新することにより、イテレーティブリファインメントはモデル全体のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2025-02-25T01:52:37Z) - LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment [12.80921403367322]
大規模言語モデル(LLM)は、様々な領域で例外的なパフォーマンスを示す。
LLMのサイズとメモリ要件を削減した量子化技術は、リソース制限されたエッジデバイスにLLMをデプロイするのに有効である。
適応量子化システムLSAQ(Layer-Specific Adaptive Quantization)を提案する。
論文 参考訳(メタデータ) (2024-12-24T03:43:15Z) - LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。
トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。
正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文 参考訳(メタデータ) (2024-07-14T00:23:51Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Low-Precision Hardware Architectures Meet Recommendation Model Inference
at Scale [11.121380180647769]
本稿では,低精度ハードウェアに参照レコメンデーションモデルを適用するための検索戦略について紹介する。
また,ツールチェーンの設計と開発について論じ,モデルの精度を生涯にわたって維持する。
これらの教訓は,ハードウェアアーキテクチャとソフトウェアエンジニアリングの協調設計を促進するものだ,と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-26T16:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。