論文の概要: VQ-Logits: Compressing the Output Bottleneck of Large Language Models via Vector Quantized Logits
- arxiv url: http://arxiv.org/abs/2505.10202v1
- Date: Thu, 15 May 2025 11:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.303402
- Title: VQ-Logits: Compressing the Output Bottleneck of Large Language Models via Vector Quantized Logits
- Title(参考訳): VQ-Logits:ベクトル量子ロジットによる大規模言語モデルの出力ボトルネック圧縮
- Authors: Jintian Shao, Hongyi Huang, Jiayi Wu, YiMing Cheng, ZhiYu Wu, You Shan, MingKai Zheng,
- Abstract要約: VQ-Logitsは、大規模言語モデル出力層のパラメータカウントと計算負荷を大幅に削減する新しいアプローチである。
VQ-Logitsは出力層で最大99%のパラメータ削減を実現し,ロジット計算で6倍の高速化を実現可能である。
- 参考スコア(独自算出の注目度): 9.470124763460904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success but face significant computational and memory challenges, particularly due to their extensive output vocabularies. The final linear projection layer, mapping hidden states to vocabulary-sized logits, often constitutes a substantial portion of the model's parameters and computational cost during inference. Existing methods like adaptive softmax or hierarchical softmax introduce structural complexities. In this paper, we propose VQ-Logits, a novel approach that leverages Vector Quantization (VQ) to drastically reduce the parameter count and computational load of the LLM output layer. VQ-Logits replaces the large V * dmodel output embedding matrix with a small, shared codebook of K embedding vectors (K << V ). Each token in the vocabulary is mapped to one of these K codebook vectors. The LLM predicts logits over this compact codebook, which are then efficiently "scattered" to the full vocabulary space using the learned or preassigned mapping. We demonstrate through extensive experiments on standard language modeling benchmarks (e.g., WikiText-103, C4) that VQ-Logits can achieve up to 99% parameter reduction in the output layer and 6x speedup in logit computation, with only a marginal 4% increase in perplexity compared to full softmax baselines. We further provide detailed ablation studies on codebook size, initialization, and learning strategies, showcasing the robustness and effectiveness of our approach.
- Abstract(参考訳): LLM(Large Language Models)は、大きな成功を収めているが、特にその広範な出力語彙のために、計算とメモリの重大な課題に直面している。
最後の線形射影層は、隠れた状態を語彙サイズのロジットにマッピングし、しばしば推論時のモデルのパラメータと計算コストのかなりの部分を構成する。
アダプティブ・ソフトマックスや階層型ソフトマックスのような既存の手法は構造的複雑さを導入している。
本稿では,ベクトル量子化(VQ)を利用してLLM出力層のパラメータ数と計算負荷を大幅に削減する新しい手法であるVQ-Logitsを提案する。
VQ-Logits は、大きな V * dmodel 出力埋め込み行列を K 埋め込みベクトル (K << V ) の小さな共有コードブックに置き換える。
語彙の各トークンは、これらのKコードブックベクトルの1つにマッピングされる。
LLMは、このコンパクトなコードブック上のロジットを予測し、学習または事前割り当てされたマッピングを使用して、全語彙空間に効率よく「散布」される。
我々は、VQ-Logitsが出力層で最大99%のパラメータ削減とロジット計算で6倍の高速化を達成できるという、標準言語モデリングベンチマーク(WikiText-103, C4など)の広範な実験を通じて、完全なソフトマックスベースラインと比較して、パープレキシティがわずか4%向上したことを実証した。
さらに、コードブックのサイズ、初期化、学習戦略に関する詳細なアブレーション研究を行い、我々のアプローチの堅牢性と有効性を示す。
関連論文リスト
- QLESS: A Quantized Approach for Data Valuation and Selection in Large Language Model Fine-Tuning [12.371302966300128]
textbfQLESS (Quantized Low-rank Gradient similarity Search)を提案する。
QLESSは、勾配量子化とLESSフレームワークを統合して、メモリ効率のよいデータバリュエーションと選択を可能にする。
実験では、QLESSがLESSに匹敵するデータ選択性能を達成し、メモリ使用量を最大16倍に削減している。
論文 参考訳(メタデータ) (2025-02-03T10:52:32Z) - Addressing Representation Collapse in Vector Quantized Models with One Linear Layer [10.532262196027752]
ベクトル量子化(英: Vector Quantization, VQ)は、連続表現を離散符号に変換する方法である。
VQモデルは、潜在空間における表現崩壊の問題によってしばしば妨げられる。
線形変換層を通じてコードベクトルを再パラメータ化する新しい手法である textbfSimVQ を提案する。
論文 参考訳(メタデータ) (2024-11-04T12:40:18Z) - Natural Is The Best: Model-Agnostic Code Simplification for Pre-trained Large Language Models [6.646510073473929]
本稿では,SlimCodeを提案する。SlimCodeは大規模言語モデルのための,モデルに依存しないコード単純化ソリューションである。
SlimCodeは、コード検索と要約におけるMRRおよびBLEUスコアの9.46%と5.15%の最先端技術を改善することができる。
論文 参考訳(メタデータ) (2024-05-18T06:15:52Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。