論文の概要: LCD: Advancing Extreme Low-Bit Clustering for Large Language Models via Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2506.12038v1
- Date: Fri, 23 May 2025 03:28:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.598724
- Title: LCD: Advancing Extreme Low-Bit Clustering for Large Language Models via Knowledge Distillation
- Title(参考訳): LCD:知識蒸留による大規模言語モデルのための極低ビットクラスタリングの改善
- Authors: Fangxin Liu, Ning Yang, Junping Zhao, Tao Yang, Haibing Guan, Li Jiang,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げているが、デプロイメントでは課題に直面している。
重み量子化はこれらの問題に対処する一般的な手法であるが、効果的な低ビット圧縮を実現することは依然として困難である。
本稿では,知識蒸留フレームワーク内でのクラスタリングに基づく量子化学習を統合するLCDを提案する。
- 参考スコア(独自算出の注目度): 18.648706577996595
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have achieved significant progress in natural language processing but face challenges in deployment due to high memory and computational requirements. Weight quantization is a common approach to address these issues, yet achieving effective low-bit compression remains challenging. This paper presents LCD, which unifies the learning of clustering-based quantization within a knowledge distillation framework. Using carefully designed optimization techniques, LCD preserves LLM performance even at ultra-low bit widths of 2-3 bits. Additionally, LCD compresses activations through smoothing and accelerates inference with a LUT-based design. Experimental results show that LCD outperforms existing methods and delivers up to a 6.2x speedup in inference. Notably, LCD is shown to be more cost-effective, making it a practical solution for real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理において大きな進歩を遂げているが、高いメモリと計算要求のため、デプロイメントの課題に直面している。
重み量子化はこれらの問題に対処する一般的な手法であるが、効果的な低ビット圧縮を実現することは依然として困難である。
本稿では,知識蒸留フレームワーク内でのクラスタリングに基づく量子化学習を統合するLCDを提案する。
慎重に設計された最適化手法を用いることで、LCDは2〜3ビットの超低ビット幅でもLLM性能を保っている。
さらに、LCDはスムースにすることでアクティベーションを圧縮し、LUTベースの設計で推論を加速する。
実験の結果、LCDは既存の手法より優れており、推論の6.2倍のスピードアップをもたらすことがわかった。
特にLCDはコスト効率が良く、現実のアプリケーションにとって実用的なソリューションであることが示されている。
関連論文リスト
- Active Layer-Contrastive Decoding Reduces Hallucination in Large Language Model Generation [33.76488859601271]
近年の復号化手法は、生成時に次のトークンをどのように選択するかを精査することによって、大規模言語モデル(LLM)の事実性を向上している。
LLMは、特に長い文脈で幻覚を起こす傾向にある。
ActLCD(Active Layer-Contrastive Decoding)は,生成時にコントラスト層をいつ適用するかを積極的に決定する,新しいデコーディング戦略である。
論文 参考訳(メタデータ) (2025-05-29T17:07:24Z) - Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。
これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。
デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文 参考訳(メタデータ) (2025-05-21T02:23:01Z) - Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。
LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。
LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文 参考訳(メタデータ) (2025-03-10T09:26:08Z) - Lightweight Contrastive Distilled Hashing for Online Cross-modal Retrieval [11.81047720977634]
本稿では, クロスモーダル検索のための軽量コントラスト蒸留ハッシュ (LCDH) を提案する。
教師ネットワークにおいて、LCDHはまず、対照的な言語イメージによる事前学習により、クロスモーダルな特徴を抽出する。
学生ネットワークにおいて、LCDHは軽量モデルにより視覚的特徴とテキスト的特徴を抽出する。
論文 参考訳(メタデータ) (2025-02-27T04:31:17Z) - Highly Optimized Kernels and Fine-Grained Codebooks for LLM Inference on Arm CPUs [0.8217552831952]
大きな言語モデル(LLM)は、言語理解と生成に関する考え方を変えました。
LLM量子化によく使われるグループ量子化形式は、計算上のオーバーヘッドとリソース集約型量子化プロセスを持つ。
本稿では,LLMの超低精度量子化のためのグループワイド非一様符号ブックに基づく量子化手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T03:44:29Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Designing Large Foundation Models for Efficient Training and Inference: A Survey [35.40505841618305]
本稿では,基礎モデルに基づく現代的効率的なトレーニングと推論技術に焦点を当てる。
モデルとシステムデザイン 計算資源を節約するために、異なる側面からのLLMトレーニングと推論を最適化する。
論文 参考訳(メタデータ) (2024-09-03T15:35:01Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。