論文の概要: Learning from Students: Applying t-Distributions to Explore Accurate and Efficient Formats for LLMs
- arxiv url: http://arxiv.org/abs/2405.03103v1
- Date: Mon, 6 May 2024 01:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 15:04:42.795992
- Title: Learning from Students: Applying t-Distributions to Explore Accurate and Efficient Formats for LLMs
- Title(参考訳): 学生から学ぶ: t-distributions を適用して LLM の正確かつ効率的なフォーマットを探索する
- Authors: Jordan Dotzel, Yuzong Chen, Bahaa Kotb, Sushma Prasad, Gang Wu, Sheng Li, Mohamed S. Abdelfattah, Zhiru Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、最近様々なタスクで最先端のパフォーマンスを達成した。
彼らは厳格なレイテンシと電力需要に苦しむ。
ディープニューラルネットワーク(DNN)量子化は伝統的に、モデルを低精度整数形式に変換することによってこれらの制限に対処してきた。
- 参考スコア(独自算出の注目度): 15.668949081669222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently achieved state-of-the-art performance across various tasks, yet due to their large computational requirements, they struggle with strict latency and power demands. Deep neural network (DNN) quantization has traditionally addressed these limitations by converting models to low-precision integer formats. Yet recently alternative formats, such as Normal Float (NF4), have been shown to consistently increase model accuracy, albeit at the cost of increased chip area. In this work, we first conduct a large-scale analysis of LLM weights and activations across 30 networks to conclude most distributions follow a Student's t-distribution. We then derive a new theoretically optimal format, Student Float (SF4), with respect to this distribution, that improves over NF4 across modern LLMs, for example increasing the average accuracy on LLaMA2-7B by 0.76% across tasks. Using this format as a high-accuracy reference, we then propose augmenting E2M1 with two variants of supernormal support for higher model accuracy. Finally, we explore the quality and performance frontier across 11 datatypes, including non-traditional formats like Additive-Powers-of-Two (APoT), by evaluating their model accuracy and hardware complexity. We discover a Pareto curve composed of INT4, E2M1, and E2M1 with supernormal support, which offers a continuous tradeoff between model accuracy and chip area. For example, E2M1 with supernormal support increases the accuracy of Phi-2 by up to 2.19% with 1.22% area overhead, enabling more LLM-based applications to be run at four bits.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、様々なタスクで最先端のパフォーマンスを達成したが、大きな計算要求のため、厳格なレイテンシと電力要求に悩まされている。
ディープニューラルネットワーク(DNN)量子化は伝統的に、モデルを低精度整数形式に変換することによってこれらの制限に対処してきた。
しかし、最近、NF4(Normal Float)のような代替フォーマットは、チップ面積の増大を犠牲にして、モデル精度を継続的に向上することが示されている。
本研究ではまず,30のネットワークにまたがるLLM重みとアクティベーションの大規模解析を行い,学生のt分布に追従する分布のほとんどを結論付ける。
次に,この分布に関して,LLaMA2-7Bの平均精度を0.76%向上させる,理論上最適な新たな形式である学生フロート(SF4)を導出する。
このフォーマットを高精度な参照として使用し、モデル精度を高めるための2種類の超正規サポートを持つ拡張E2M1を提案する。
最後に、モデル精度とハードウェアの複雑さを評価し、Additive-Powers-of-Two (APoT)のような従来のフォーマットを含む11のデータタイプにわたる品質とパフォーマンスのフロンティアについて検討する。
超正規サポートを持つINT4, E2M1, E2M1からなるPareto曲線を発見し, モデル精度とチップ面積の連続的なトレードオフを提供する。
例えば、超正規サポートを持つE2M1は、1.22%のオーバヘッドでPhi-2の精度を2.19%向上させ、LCMベースのアプリケーションを4ビットで実行できるようにする。
関連論文リスト
- Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Characterizing the Accuracy - Efficiency Trade-off of Low-rank Decomposition in Language Models [1.530997923234786]
大規模言語モデル(LLM)が登場し、1つのモデルでそれらの一般的な問題解決能力を示した。
低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す。
その結果,9%のモデルサイズ削減を最小限の精度で達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-10T17:40:02Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs [11.245862832561176]
投機的復号化による推論アクセラレーションを実現するためには、高品質なドラフトモデルをトレーニングする必要がある。
我々は、Llama 2 Chat Drafter 115M、Llama 2 Chat 7B以上のドラフトモデル、オリジナルサイズの1.64%しか持たないLlama 2 Chat Drafter 115Mを訓練する。
Llama 2 Chat Dr After 115M with speculative decoding は最大2.3ブロック効率と2.4$times$ speed-upを実現している。
論文 参考訳(メタデータ) (2024-02-29T19:55:06Z) - FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models
for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。
本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。
ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文 参考訳(メタデータ) (2024-02-21T05:03:17Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - INT2.1: Towards Fine-Tunable Quantized Large Language Models with Error
Correction through Low-Rank Adaptation [5.837035655563323]
本稿では,微調整されたVRAM要求を劇的に削減し,量子化された大言語モデルにおける量子化誤差を補正する手法を提案する。
提案手法は, 最大5.6倍のメモリ要求を削減し, 一般向けラップトップ上で70億パラメータのLLM(Large Language Model)を微調整することができる。
論文 参考訳(メタデータ) (2023-06-13T22:25:35Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。