論文の概要: From Bits to Chips: An LLM-based Hardware-Aware Quantization Agent for Streamlined Deployment of LLMs
- arxiv url: http://arxiv.org/abs/2601.03484v1
- Date: Wed, 07 Jan 2026 00:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.160568
- Title: From Bits to Chips: An LLM-based Hardware-Aware Quantization Agent for Streamlined Deployment of LLMs
- Title(参考訳): ビットからチップへ:LLMの合理化のためのハードウェア対応量子化エージェント
- Authors: Kaiyuan Deng, Hangyu Zheng, Minghai Qing, Kunxiong Zhu, Gen Li, Yang Xiao, Lan Emily Zhang, Linke Guo, Bo Hui, Yanzhi Wang, Geng Yuan, Gagan Agrawal, Wei Niu, Xiaolong Ma,
- Abstract要約: ハードウェア・アウェア・量子化エージェント(HAQA)を導入し、量子化と展開プロセスの合理化を図る。
結果は、スループットの向上と精度の向上とともに、推論の2.3倍のスピードアップを示す。
- 参考スコア(独自算出の注目度): 43.33830246397275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying models, especially large language models (LLMs), is becoming increasingly attractive to a broader user base, including those without specialized expertise. However, due to the resource constraints of certain hardware, maintaining high accuracy with larger model while meeting the hardware requirements remains a significant challenge. Model quantization technique helps mitigate memory and compute bottlenecks, yet the added complexities of tuning and deploying quantized models further exacerbates these challenges, making the process unfriendly to most of the users. We introduce the Hardware-Aware Quantization Agent (HAQA), an automated framework that leverages LLMs to streamline the entire quantization and deployment process by enabling efficient hyperparameter tuning and hardware configuration, thereby simultaneously improving deployment quality and ease of use for a broad range of users. Our results demonstrate up to a 2.3x speedup in inference, along with increased throughput and improved accuracy compared to unoptimized models on Llama. Additionally, HAQA is designed to implement adaptive quantization strategies across diverse hardware platforms, as it automatically finds optimal settings even when they appear counterintuitive, thereby reducing extensive manual effort and demonstrating superior adaptability. Code will be released.
- Abstract(参考訳): モデル、特に大きな言語モデル(LLM)のデプロイは、専門知識のない人を含む幅広いユーザベースにとって、ますます魅力的になっています。
しかしながら、特定のハードウェアのリソース制約のため、ハードウェア要件を満たしながら、より大きなモデルで高い精度を維持することは大きな課題である。
モデル量子化技術は、メモリと計算ボトルネックを軽減するのに役立つが、量子化されたモデルのチューニングとデプロイの複雑さがこれらの課題をさらに悪化させ、プロセスがほとんどのユーザにとって不都合になる。
ハードウェア・アウェア・量子化エージェント(HAQA)は、LLMを活用して、効率的なハイパーパラメータチューニングとハードウェア構成を実現し、広い範囲のユーザに対するデプロイメント品質と使いやすさを同時に改善することにより、量子化とデプロイメントプロセス全体を合理化する自動化フレームワークである。
その結果、Llamaの最適化されていないモデルと比較して、スループットの向上と精度の向上とともに、推論の2.3倍の高速化が示された。
さらにHAQAは、さまざまなハードウェアプラットフォームにまたがる適応的な量子化戦略を実装するように設計されている。
コードはリリースされる。
関連論文リスト
- LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge [12.772499009055194]
視覚言語モデル(VLM)のための軽量で量子化された適応型フレームワークを提案する。
本稿では、SHQ(Selective Hybrid Quantization)と、リソース制約のあるハードウェア上での堅牢で効率的なVLMデプロイメントを実現するために、量子化・勾配なし適応機構を導入する。
実験の結果、LQAは全体の適応性能を4.5%改善し、メモリ使用量を減らし、勾配ベースのTTA法よりも大幅に向上した。
論文 参考訳(メタデータ) (2026-02-08T07:37:37Z) - Advancing Model Refinement: Muon-Optimized Distillation and Quantization for LLM Deployment [1.0858059444801136]
大規模言語モデル(LLM)は、高度な自然言語処理を可能にするが、リソース制約のあるエッジデバイス上でのデプロイメント上の課題に直面している。
本稿では,GPTQに基づく量子化,ローランク適応(LoRA),特殊データ蒸留プロセスを組み合わせた統合フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-14T20:50:30Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Experts [28.9807389592324]
機械学習のワークフローを自動化するための有望なソリューションとして、大規模言語モデル(LLM)エージェントが登場した。
LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを紹介します。
実際のトレーニングフィードバックに基づいて個々のコンポーネントを体系的に更新することにより、イテレーティブリファインメントはモデル全体のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2025-02-25T01:52:37Z) - LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment [12.80921403367322]
大規模言語モデル(LLM)は、様々な領域で例外的なパフォーマンスを示す。
LLMのサイズとメモリ要件を削減した量子化技術は、リソース制限されたエッジデバイスにLLMをデプロイするのに有効である。
適応量子化システムLSAQ(Layer-Specific Adaptive Quantization)を提案する。
論文 参考訳(メタデータ) (2024-12-24T03:43:15Z) - QSpec: Speculative Decoding with Complementary Quantization Schemes [53.960146187821685]
大規模言語モデル(LLM)における推論の高速化とメモリ消費削減のために量子化が広く採用されている
品質から効率を分離する新しい量子化パラダイムであるQSpecを提案する。
QSpecは重みとKVキャッシュの両方を段階的に再利用し、再トレーニングや補助モデルなしでほぼゼロコストで切り替えることができる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。
トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。
正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文 参考訳(メタデータ) (2024-07-14T00:23:51Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Low-Precision Hardware Architectures Meet Recommendation Model Inference
at Scale [11.121380180647769]
本稿では,低精度ハードウェアに参照レコメンデーションモデルを適用するための検索戦略について紹介する。
また,ツールチェーンの設計と開発について論じ,モデルの精度を生涯にわたって維持する。
これらの教訓は,ハードウェアアーキテクチャとソフトウェアエンジニアリングの協調設計を促進するものだ,と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-26T16:42:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。