Fugu-MT 論文翻訳(概要): SDQ: Sparse Decomposed Quantization for LLM Inference

論文の概要: SDQ: Sparse Decomposed Quantization for LLM Inference

arxiv url: http://arxiv.org/abs/2406.13868v1
Date: Wed, 19 Jun 2024 22:12:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 18:06:06.787098
Title: SDQ: Sparse Decomposed Quantization for LLM Inference
Title（参考訳）: SDQ: LLM推論のためのスパース分解量子化
Authors: Geonhwa Jeong, Po-An Tsai, Stephen W. Keckler, Tushar Krishna,
Abstract要約: SDQ(Sparse Decomposed Quantization)は、構造化された空間と量子化の両方を利用して高い計算効率とメモリ効率を実現する。評価の結果,SDQ は 1% の精度低下で 4 倍の効率の計算スループットを達成できることがわかった。
参考スコア（独自算出の注目度）: 6.631358865967519
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recently, large language models (LLMs) have shown surprising performance in task-specific workloads as well as general tasks with the given prompts. However, to achieve unprecedented performance, recent LLMs use billions to trillions of parameters, which hinder the wide adaptation of those models due to their extremely large compute and memory requirements. To resolve the issue, various model compression methods are being actively investigated. In this work, we propose SDQ (Sparse Decomposed Quantization) to exploit both structured sparsity and quantization to achieve both high compute and memory efficiency. From our evaluations, we observe that SDQ can achieve 4x effective compute throughput with <1% quality drop.
Abstract（参考訳）: 近年、大規模言語モデル(LLM)はタスク固有のワークロードや与えられたプロンプトによる一般的なタスクにおいて驚くべきパフォーマンスを示している。しかし、先例のない性能を達成するために、最近のLLMは数十億から数兆のパラメータを使用しており、計算とメモリの要求が非常に大きいため、これらのモデルの広範な適応を妨げている。この問題を解決するために,様々なモデル圧縮手法が積極的に研究されている。本研究ではSDQ(Sparse Decomposed Quantization)を提案し,高計算効率とメモリ効率を両立させる。評価の結果,SDQ は 4 倍効率の計算スループットを 1% の低下で達成できることがわかった。

関連論文リスト

MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning [78.46301394559903]
大きな言語モデル(LLM)は、長期化タスクにますます使われています。現在の手法はコストと精度のトレードオフに直面している。 MemSifterは、メモリ検索プロセスを小さなプロキシモデルにオフロードする新しいフレームワークである。
論文参考訳（メタデータ） (2026-03-03T02:57:38Z)
Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文参考訳（メタデータ） (2026-01-25T03:07:54Z)
Cache Management for Mixture-of-Experts LLMs -- extended version [29.858964433575906]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。 LLMのデプロイメントを成功させる上での大きな課題の1つは、メモリ管理である。我々は,エキスパートマネジメントの最適化をモデルとした新しいページング問題を導入し,研究する。
論文参考訳（メタデータ） (2025-09-02T15:19:06Z)
LLM Compression: How Far Can We Go in Balancing Size and Performance? [3.8420176149841714]
4ビットグループスケーリング量子化(GSQ)とGPTQ(Generative Pretrained Transformer Quantization)をLLaMA 1B,Qwen 0.5B,PHI 1.5Bに適用した。我々はこれらのモデルをMS MARCO (Information Retrieval), BoolQ (Boolean Question Answering), GSM8K (Mathematical Reasoning)データセットでベンチマークする。この研究は、モデル圧縮とタスクパフォーマンスのトレードオフを測定し、主要な評価指標を分析する。
論文参考訳（メタデータ） (2025-08-15T08:41:20Z)
Exploring the Limits of Model Compression in LLMs: A Knowledge Distillation Study on QA Tasks [3.729861876440969]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて優れたパフォーマンスを示している。本研究は、知識蒸留(KD)を用いてLLMを圧縮できる範囲について検討する。 Pythia と Qwen2.5 の2つのQAベンチマーク (SQuAD と MLQA) で, ゼロショットとワンショットのプロンプト条件下で蒸留した学生モデルを評価した。
論文参考訳（メタデータ） (2025-07-10T10:54:05Z)
Task Specific Pruning with LLM-Sieve: How Many Parameters Does Your Task Really Need? [2.678235552360207]
大きな言語モデル(LLM)は、狭義のタスクにますます採用されている。タスクには実際に何つのパラメータが必要ですか? LLM-Sieveは,LLMのタスク固有プルーニングのための,最初の包括的フレームワークである。
論文参考訳（メタデータ） (2025-05-23T20:17:20Z)
Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。 RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2025-03-03T18:46:33Z)
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
適応スパーストレーナー(AST)と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。 ASTは、モデルがトレーニングプロセスを通して適応的にマスクを選択することを可能にし、マスキング重みに減衰を施すことにより、密度の高いモデルをスパースモデルに変換する。本研究は,半構造化されたスパース言語モデルの実現可能性を示し,高度に圧縮されたモデルを実現するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-30T06:33:44Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
Low-Rank Quantization-Aware Training for LLMs [8.535254310145005]
大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。 LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
論文参考訳（メタデータ） (2024-06-10T15:44:22Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Quantifying the Capabilities of LLMs across Scale and Precision [12.879551933541345]
本研究では,モデルスケールと量子化がインストラクションモデルの性能に及ぼす影響について検討する。より大規模なモデルでは、精度の低下に対して例外的なレジリエンスを示し、4ビット量子化においても高い精度を維持することができることを示す。
論文参考訳（メタデータ） (2024-05-06T03:42:34Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation Extractors [11.28397947587596]
大規模命令追従データセット上での細調整大型言語モデル(LLM)は、幅広いNLPタスクの性能を大幅に向上させる。しかし、先進的な命令調整 LLM でさえ、関係抽出(RE)において小さな LM を上回りません。本稿では,REを質問応答(QA)と整合させるフレームワークであるQA4REを提案する。
論文参考訳（メタデータ） (2023-05-18T17:48:03Z)
DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文参考訳（メタデータ） (2022-03-21T18:04:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。