Fugu-MT 論文翻訳(概要): VQ-Logits: Compressing the Output Bottleneck of Large Language Models via Vector Quantized Logits

論文の概要: VQ-Logits: Compressing the Output Bottleneck of Large Language Models via Vector Quantized Logits

arxiv url: http://arxiv.org/abs/2505.10202v1
Date: Thu, 15 May 2025 11:58:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 22:29:06.303402
Title: VQ-Logits: Compressing the Output Bottleneck of Large Language Models via Vector Quantized Logits
Title（参考訳）: VQ-Logits:ベクトル量子ロジットによる大規模言語モデルの出力ボトルネック圧縮
Authors: Jintian Shao, Hongyi Huang, Jiayi Wu, YiMing Cheng, ZhiYu Wu, You Shan, MingKai Zheng,
Abstract要約: VQ-Logitsは、大規模言語モデル出力層のパラメータカウントと計算負荷を大幅に削減する新しいアプローチである。 VQ-Logitsは出力層で最大99%のパラメータ削減を実現し,ロジット計算で6倍の高速化を実現可能である。
参考スコア（独自算出の注目度）: 9.470124763460904
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have achieved remarkable success but face significant computational and memory challenges, particularly due to their extensive output vocabularies. The final linear projection layer, mapping hidden states to vocabulary-sized logits, often constitutes a substantial portion of the model's parameters and computational cost during inference. Existing methods like adaptive softmax or hierarchical softmax introduce structural complexities. In this paper, we propose VQ-Logits, a novel approach that leverages Vector Quantization (VQ) to drastically reduce the parameter count and computational load of the LLM output layer. VQ-Logits replaces the large V * dmodel output embedding matrix with a small, shared codebook of K embedding vectors (K << V ). Each token in the vocabulary is mapped to one of these K codebook vectors. The LLM predicts logits over this compact codebook, which are then efficiently "scattered" to the full vocabulary space using the learned or preassigned mapping. We demonstrate through extensive experiments on standard language modeling benchmarks (e.g., WikiText-103, C4) that VQ-Logits can achieve up to 99% parameter reduction in the output layer and 6x speedup in logit computation, with only a marginal 4% increase in perplexity compared to full softmax baselines. We further provide detailed ablation studies on codebook size, initialization, and learning strategies, showcasing the robustness and effectiveness of our approach.
Abstract（参考訳）: LLM(Large Language Models)は、大きな成功を収めているが、特にその広範な出力語彙のために、計算とメモリの重大な課題に直面している。最後の線形射影層は、隠れた状態を語彙サイズのロジットにマッピングし、しばしば推論時のモデルのパラメータと計算コストのかなりの部分を構成する。アダプティブ・ソフトマックスや階層型ソフトマックスのような既存の手法は構造的複雑さを導入している。本稿では,ベクトル量子化(VQ)を利用してLLM出力層のパラメータ数と計算負荷を大幅に削減する新しい手法であるVQ-Logitsを提案する。 VQ-Logits は、大きな V * dmodel 出力埋め込み行列を K 埋め込みベクトル (K << V ) の小さな共有コードブックに置き換える。語彙の各トークンは、これらのKコードブックベクトルの1つにマッピングされる。 LLMは、このコンパクトなコードブック上のロジットを予測し、学習または事前割り当てされたマッピングを使用して、全語彙空間に効率よく「散布」される。我々は、VQ-Logitsが出力層で最大99%のパラメータ削減とロジット計算で6倍の高速化を達成できるという、標準言語モデリングベンチマーク(WikiText-103, C4など)の広範な実験を通じて、完全なソフトマックスベースラインと比較して、パープレキシティがわずか4%向上したことを実証した。さらに、コードブックのサイズ、初期化、学習戦略に関する詳細なアブレーション研究を行い、我々のアプローチの堅牢性と有効性を示す。

関連論文リスト

SpeLLM: Character-Level Multi-Head Decoding [6.474939955469084]
SpeLLMは、複数の出力ヘッドを通して文字レベルの文字列を予測することで、入力と出力の語彙を分離する手法である。 SpeLLMでは、$k$のリニアヘッドが1つの文字を同時に予測し、モデルがより大きな出力空間を表現できるようにする。 4つの事前学習 LLM を用いた実験により,SpeLLM 変種は下流タスク上での競合性能を実現し,ランタイムを5.1%削減した。
論文参考訳（メタデータ） (2025-07-22T08:07:06Z)
Efficient Whole Slide Pathology VQA via Token Compression [10.122347041204629]
病理学における全スライディング画像(WSI)は1万×1万ピクセルまで到達でき、大言語モデル(MLLM)にとって大きな課題となる。トークン圧縮によりWSI VQAを実行する最初のMLLMアーキテクチャであるToken Compression Pathology LLaVA(TCP-LLaVA)を提案する。
論文参考訳（メタデータ） (2025-07-19T06:04:25Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
QLESS: A Quantized Approach for Data Valuation and Selection in Large Language Model Fine-Tuning [12.371302966300128]
textbfQLESS (Quantized Low-rank Gradient similarity Search)を提案する。 QLESSは、勾配量子化とLESSフレームワークを統合して、メモリ効率のよいデータバリュエーションと選択を可能にする。実験では、QLESSがLESSに匹敵するデータ選択性能を達成し、メモリ使用量を最大16倍に削減している。
論文参考訳（メタデータ） (2025-02-03T10:52:32Z)
Addressing Representation Collapse in Vector Quantized Models with One Linear Layer [10.532262196027752]
ベクトル量子化(英: Vector Quantization, VQ)は、連続表現を離散符号に変換する方法である。 VQモデルは、潜在空間における表現崩壊の問題によってしばしば妨げられる。線形変換層を通じてコードベクトルを再パラメータ化する新しい手法である textbfSimVQ を提案する。
論文参考訳（メタデータ） (2024-11-04T12:40:18Z)
Natural Is The Best: Model-Agnostic Code Simplification for Pre-trained Large Language Models [6.646510073473929]
本稿では,SlimCodeを提案する。SlimCodeは大規模言語モデルのための,モデルに依存しないコード単純化ソリューションである。 SlimCodeは、コード検索と要約におけるMRRおよびBLEUスコアの9.46%と5.15%の最先端技術を改善することができる。
論文参考訳（メタデータ） (2024-05-18T06:15:52Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文参考訳（メタデータ） (2024-01-26T09:23:27Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。 Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文参考訳（メタデータ） (2023-11-16T09:35:50Z)
LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文参考訳（メタデータ） (2023-10-09T14:10:21Z)
Soft Convex Quantization: Revisiting Vector Quantization with Convex Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。 SCQは微分凸最適化(DCO)層のように機能する。 CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文参考訳（メタデータ） (2023-10-04T17:45:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。