Fugu-MT 論文翻訳(概要): LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment

論文の概要: LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment

arxiv url: http://arxiv.org/abs/2412.18135v1
Date: Tue, 24 Dec 2024 03:43:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 19:23:17.647993
Title: LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment
Title（参考訳）: LSAQ: 大規模言語モデル展開のための層特異的適応量子化
Authors: Binrui Zeng, Bin Ji, Xiaodong Liu, Jie Yu, Shasha Li, Jun Ma, Xiaopeng Li, Shangwen Wang, Xinran Hong,
Abstract要約: LSAQ(Layer-Specific Adaptive Quantization)は,大規模言語モデル(LLM)の適応的量子化と動的展開を行うシステムである。このシステムは、エッジデバイスのリソース可用性に応じて、リアルタイムに量子化戦略を適応的に調整し、異なる精度レベルを異なる重要性の層に割り当てる。
参考スコア（独自算出の注目度）: 13.235417359529965
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) demonstrate exceptional performance across various domains, the deployment of these models on edge devices has emerged as a new trend. Quantization techniques, which reduce the size and memory footprint of LLMs, are effective for enabling deployment on resource-constrained edge devices. However, existing one-size-fits-all quantization methods often fail to dynamically adjust the memory consumption of LLMs based on specific hardware characteristics and usage scenarios. To address this limitation, we propose LSAQ (Layer-Specific Adaptive Quantization), a system for adaptive quantization and dynamic deployment of LLMs based on layer importance. LSAQ evaluates layer importance by constructing top-k token sets from the inputs and outputs of each layer and calculating their Jaccard coefficient. Using this evaluation, the system adaptively adjusts quantization strategies in real time according to the resource availability of edge devices, assigning different precision levels to layers of varying importance. This approach significantly reduces the storage requirements of LLMs while maintaining model performance, enabling efficient deployment across diverse hardware platforms and usage scenarios.
Abstract（参考訳）: 大規模言語モデル(LLM)は、さまざまな領域で例外的なパフォーマンスを示すため、エッジデバイスへのこれらのモデルのデプロイは新しいトレンドとして現れている。 LLMのサイズとメモリフットプリントを削減した量子化技術は、リソース制約されたエッジデバイスへの展開を可能にするのに有効である。しかし、既存のワンサイズの量子化手法では、特定のハードウェア特性や使用シナリオに基づいて、LCMのメモリ消費を動的に調整できない場合が多い。この制限に対処するため,層重みに基づく適応量子化と動的展開システム LSAQ (Layer-Specific Adaptive Quantization) を提案する。 LSAQは、各層の入力と出力からトップkトークンセットを構築し、それらのジャカード係数を計算することで、レイヤの重要性を評価する。この評価を用いて,エッジデバイスの資源利用量に応じて,リアルタイムに量子化戦略を適応的に調整し,異なる精度レベルを重要度の高い層に割り当てる。このアプローチは、モデルパフォーマンスを維持しながらLLMのストレージ要件を大幅に削減し、多様なハードウェアプラットフォームと使用シナリオを効率的にデプロイすることを可能にする。

関連論文リスト

Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
DILEMMA: Joint LLM Quantization and Distributed LLM Inference Over Edge Computing Systems [1.14179290793997]
本稿では,エッジコンピューティングシステムに大規模言語モデルをデプロイする際の課題に対処する新しいフレームワークであるDILEMMAを紹介する。 DILEMMAは線形プログラミングの問題を定式化し、総遅延を最小限に抑えつつ、許容可能なLLM性能レベルを確保している。モデル損失を保ちながら、最大で12.75%の量子化比を達成し、資源制約のある環境での有効性を強調している。
論文参考訳（メタデータ） (2025-03-03T16:16:33Z)
IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Agents [17.301758094000125]
大規模言語モデル(LLM)エージェントは、コンピュータビジョンモデルの開発を自動化するための有望なソリューションとして登場した。 LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを導入する。イテレーティブリファインメントは安定性、解釈可能性、全体的なモデルパフォーマンスを改善します。
論文参考訳（メタデータ） (2025-02-25T01:52:37Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。 AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文参考訳（メタデータ） (2024-11-15T22:02:28Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
Efficient Large Foundation Model Inference: A Perspective From Model and System Co-Design [35.40505841618305]
大規模言語モデル(LLM)が普及し,LLM上でのMLモデルの効率的な設計の必要性が高まっている。本稿では,LLMの効率的な推論技術に焦点をあて,モデルとシステム設計という2つの視点から解説する。
論文参考訳（メタデータ） (2024-09-03T15:35:01Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。 LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文参考訳（メタデータ） (2024-05-27T14:49:39Z)
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。その動機は量子化と適応の自由の不均衡度にある。 QA-LoRAは数行のコードで簡単に実装できる。
論文参考訳（メタデータ） (2023-09-26T07:22:23Z)
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。 AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文参考訳（メタデータ） (2023-06-01T17:59:10Z)
Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文参考訳（メタデータ） (2023-05-23T15:20:01Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。