Fugu-MT 論文翻訳(概要): LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment

論文の概要: LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment

arxiv url: http://arxiv.org/abs/2412.18135v2
Date: Tue, 06 May 2025 11:41:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 14:45:09.155843
Title: LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment
Title（参考訳）: LSAQ: 大規模言語モデル展開のための層特異的適応量子化
Authors: Binrui Zeng, Bin Ji, Xiaodong Liu, Jie Yu, Shasha Li, Jun Ma, Xiaopeng Li, Shangwen Wang, Xinran Hong, Yongtao Tang,
Abstract要約: 大規模言語モデル(LLM)は、様々な領域で例外的なパフォーマンスを示す。 LLMのサイズとメモリ要件を削減した量子化技術は、リソース制限されたエッジデバイスにLLMをデプロイするのに有効である。適応量子化システムLSAQ(Layer-Specific Adaptive Quantization)を提案する。
参考スコア（独自算出の注目度）: 12.80921403367322
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As Large Language Models (LLMs) demonstrate exceptional performance across various domains, deploying LLMs on edge devices has emerged as a new trend. Quantization techniques, which reduce the size and memory requirements of LLMs, are effective for deploying LLMs on resource-limited edge devices. However, existing one-size-fits-all quantization methods often fail to dynamically adjust the memory requirements of LLMs, limiting their applications to practical edge devices with various computation resources. To tackle this issue, we propose Layer-Specific Adaptive Quantization (LSAQ), a system for adaptive quantization and dynamic deployment of LLMs based on layer importance. Specifically, LSAQ evaluates the importance of LLMs' neural layers by constructing top-k token sets from the inputs and outputs of each layer and calculating their Jaccard similarity. Based on layer importance, our system adaptively adjusts quantization strategies in real time according to the computation resource of edge devices, which applies higher quantization precision to layers with higher importance, and vice versa. {Experimental results show that LSAQ consistently outperforms the selected quantization baselines in terms of perplexity and zero-shot tasks. Additionally, it can devise appropriate quantization schemes for different usage scenarios to facilitate the deployment of LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な領域で例外的なパフォーマンスを示すため、エッジデバイスにLSMをデプロイすることが新しいトレンドとして現れている。 LLMのサイズとメモリ要件を削減した量子化技術は、リソース制限されたエッジデバイスにLLMをデプロイするのに有効である。しかし、既存のワンサイズ全量子化法は、LLMのメモリ要求を動的に調整できず、様々な計算資源を持つ実用的なエッジデバイスに制限されることが多い。この問題に対処するために我々は,層重みに基づく適応量子化および動的展開システムLSAQ(Layer-Specific Adaptive Quantization)を提案する。具体的には、LSAQは各層の入力と出力からトップkトークンセットを構築し、それらのJaccard類似性を計算することで、LLMの神経層の重要性を評価する。本システムでは,重み付き層に高い量子化精度を適用するエッジデバイスの計算資源に応じて,リアルタイムに量子化戦略を適応的に調整する。実験結果から、LSAQは選択された量子化ベースラインをパープレキシティやゼロショットタスクで一貫して上回っていることがわかった。さらに、LLMの展開を容易にするために、異なる利用シナリオに対して適切な量子化スキームを考案することができる。

関連論文リスト

CALM: A Self-Adaptive Orchestration Approach for QoS-Aware Routing in Small Language Model based Systems [0.6999740786886536]
CALMはMAPE-Kに基づく自己適応型オーケストレーション機構である。遅延を約40%削減し、エネルギー消費を50%削減する。評価の結果,CALMは遅延を約40%減らし,エネルギー消費を50%減らした。
論文参考訳（メタデータ） (2026-02-03T15:20:14Z)
SLMQuant:Benchmarking Small Language Model Quantization for Practical Deployment [45.23402877397396]
SLMQuantは,Small Language Models (SLM) に適用した場合に圧縮技術を評価するための最初の体系的ベンチマークである。我々は,SLM上での最先端量子化手法の動作を解析する。有効なSLM量子化を規定する重要な要因を特定し,SLM調整圧縮のための実用的な設計原理を提案する。
論文参考訳（メタデータ） (2025-11-17T06:20:33Z)
Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文参考訳（メタデータ） (2025-07-21T10:52:14Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
DILEMMA: Joint LLM Quantization and Distributed LLM Inference Over Edge Computing Systems [1.14179290793997]
本稿では,エッジコンピューティングシステムに大規模言語モデルをデプロイする際の課題に対処する新しいフレームワークであるDILEMMAを紹介する。 DILEMMAは線形プログラミングの問題を定式化し、総遅延を最小限に抑えつつ、許容可能なLLM性能レベルを確保している。モデル損失を保ちながら、最大で12.75%の量子化比を達成し、資源制約のある環境での有効性を強調している。
論文参考訳（メタデータ） (2025-03-03T16:16:33Z)
IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Agents [17.301758094000125]
大規模言語モデル(LLM)エージェントは、コンピュータビジョンモデルの開発を自動化するための有望なソリューションとして登場した。 LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを導入する。イテレーティブリファインメントは安定性、解釈可能性、全体的なモデルパフォーマンスを改善します。
論文参考訳（メタデータ） (2025-02-25T01:52:37Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
CLoQ: Enhancing Fine-Tuning of Quantized LLMs via Calibrated LoRA Initialization [2.975939846457057]
低ランク適応 (LoRA) を用いた細調整型大規模言語モデル (LLM) は, 下流タスクにおいて極めて効率的なアプローチとなっている。量子化LLMにLoRA技術を適用すると、量子化重みの表現精度が低下するため、ユニークな課題が生じる。 CLoQは、これらの課題を克服するために設計された、単純化された初期化戦略である。
論文参考訳（メタデータ） (2025-01-30T16:48:15Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。 AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文参考訳（メタデータ） (2024-11-15T22:02:28Z)
HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文参考訳（メタデータ） (2024-11-10T19:59:54Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
Efficient Large Foundation Model Inference: A Perspective From Model and System Co-Design [35.40505841618305]
大規模言語モデル(LLM)が普及し,LLM上でのMLモデルの効率的な設計の必要性が高まっている。本稿では,LLMの効率的な推論技術に焦点をあて,モデルとシステム設計という2つの視点から解説する。
論文参考訳（メタデータ） (2024-09-03T15:35:01Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。 LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文参考訳（メタデータ） (2024-05-27T14:49:39Z)
A Comprehensive Evaluation of Quantization Strategies for Large Language Models [42.03804933928227]
大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-26T17:45:36Z)
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。その動機は量子化と適応の自由の不均衡度にある。 QA-LoRAは数行のコードで簡単に実装できる。
論文参考訳（メタデータ） (2023-09-26T07:22:23Z)
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。 AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文参考訳（メタデータ） (2023-06-01T17:59:10Z)
Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文参考訳（メタデータ） (2023-05-23T15:20:01Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。