論文の概要: Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.12311v2
- Date: Wed, 30 Oct 2024 11:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:22:41.825433
- Title: Mixture of Scales: Memory-Efficient Token-Adaptive Binarization for Large Language Models
- Title(参考訳): スケールの混合:大規模言語モデルのためのメモリ効率の良いToken-Adaptive Binarization
- Authors: Dongwon Jo, Taesu Kim, Yulhwa Kim, Jae-Joon Kim,
- Abstract要約: 我々はMixture of Scales(BinaryMoS)と呼ばれる新しいバイナライズ手法を導入する。
従来の方法とは異なり、BinaryMoSはバイナリ重み付けに複数のスケーリングエキスパートを使用し、各トークンにこれらの専門家を動的にマージして、スケーリングファクタを適応的に生成する。
実験の結果,BinaryMoSは様々な自然言語処理タスクにおいて従来のバイナライズ手法を超え,さらに2ビット量子化手法よりも優れていた。
- 参考スコア(独自算出の注目度): 9.16841047710942
- License:
- Abstract: Binarization, which converts weight parameters to binary values, has emerged as an effective strategy to reduce the size of large language models (LLMs). However, typical binarization techniques significantly diminish linguistic effectiveness of LLMs. To address this issue, we introduce a novel binarization technique called Mixture of Scales (BinaryMoS). Unlike conventional methods, BinaryMoS employs multiple scaling experts for binary weights, dynamically merging these experts for each token to adaptively generate scaling factors. This token-adaptive approach boosts the representational power of binarized LLMs by enabling contextual adjustments to the values of binary weights. Moreover, because this adaptive process only involves the scaling factors rather than the entire weight matrix, BinaryMoS maintains compression efficiency similar to traditional static binarization methods. Our experimental results reveal that BinaryMoS surpasses conventional binarization techniques in various natural language processing tasks and even outperforms 2-bit quantization methods, all while maintaining similar model size to static binarization techniques.
- Abstract(参考訳): 重みパラメータをバイナリ値に変換するバイナリ化は,大規模言語モデル(LLM)の縮小に有効な戦略として登場した。
しかし、典型的な二項化法はLLMの言語的効果を著しく低下させる。
この問題に対処するために,Mixture of Scales (BinaryMoS) と呼ばれる新しいバイナライゼーション手法を導入する。
従来の方法とは異なり、BinaryMoSはバイナリ重み付けに複数のスケーリングエキスパートを使用し、各トークンにこれらの専門家を動的にマージして、スケーリングファクタを適応的に生成する。
このトークン適応アプローチは、二項重みの値に対する文脈的調整を可能にすることにより、二項化LDMの表現力を高める。
さらに、この適応的なプロセスは、全体の重み行列ではなくスケーリング要素のみを含むため、BinaryMoSは従来の静的二項化法と同様の圧縮効率を維持している。
実験結果から,BinaryMoSは様々な自然言語処理タスクにおいて従来のバイナライズ手法を超越し,モデルサイズと静的バイナライズ手法との類似性を保ちながら2ビット量子化手法よりも優れていることがわかった。
関連論文リスト
- Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - STBLLM: Breaking the 1-Bit Barrier with Structured Binary LLMs [28.70239743254508]
LLM圧縮のための最初の構造双対化法を1ビット未満の精度で提案する。
バイナライズされたLLMの重みは、性能劣化を伴わずにランダムに反転することができる。
本手法は他の圧縮バイナライズ手法よりも優れた性能を示しながら,メモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2024-08-03T15:07:44Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - BiViT: Extremely Compressed Binary Vision Transformer [19.985314022860432]
両眼視変換器(BiViT)の地平線を推し進めるための2つの基本的な課題について提案する。
本稿では,データ分布に動的に適応し,バイナライゼーションによる誤差を低減するソフトマックス対応バイナリ化を提案する。
提案手法は,TinyImageNetデータセット上で,最先端技術に対して19.8%向上する。
論文 参考訳(メタデータ) (2022-11-14T03:36:38Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Exact Backpropagation in Binary Weighted Networks with Group Weight
Transformations [0.0]
量子化に基づくモデル圧縮は、推論のためのハイパフォーマンスで高速なアプローチとして機能する。
重みをバイナリ値に制限するモデルは、ユビキタスドット製品の効率的な実装を可能にします。
論文 参考訳(メタデータ) (2021-07-03T10:29:34Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。