論文の概要: Learning from Students: Applying t-Distributions to Explore Accurate and Efficient Formats for LLMs
- arxiv url: http://arxiv.org/abs/2405.03103v2
- Date: Mon, 10 Jun 2024 23:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 21:53:26.018983
- Title: Learning from Students: Applying t-Distributions to Explore Accurate and Efficient Formats for LLMs
- Title(参考訳): 学生から学ぶ: t-distributions を適用して LLM の正確かつ効率的なフォーマットを探索する
- Authors: Jordan Dotzel, Yuzong Chen, Bahaa Kotb, Sushma Prasad, Gang Wu, Sheng Li, Mohamed S. Abdelfattah, Zhiru Zhang,
- Abstract要約: 正規フロート(NF4)のような低精度の整数形式は、チップ面積の増加によるモデル精度の向上を実現している。
理論上最適である新たな形式である学生フロート(SF4)が提案され、現代のLLMにおいてNF4よりも改善されている。
このフォーマットを高精度な参照として使用し、モデル精度を高めるための2種類の超正規サポートを持つ拡張E2M1を提案する。
- 参考スコア(独自算出の注目度): 15.668949081669222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing size of large language models (LLMs) traditionally requires low-precision integer formats to meet strict latency and power demands. Yet recently, alternative formats such as Normal Float (NF4) have increased model accuracy at the cost of increased chip area. In this work, we first conduct a large-scale analysis of LLM weights and activations across 30 networks and conclude that most distributions follow a Student's t-distribution. We then derive a new theoretically optimal format, Student Float (SF4), that improves over NF4 across modern LLMs, for example increasing the average accuracy on LLaMA2-7B by 0.76% across tasks. Using this format as a high-accuracy reference, we then propose augmenting E2M1 with two variants of supernormal support for higher model accuracy. Finally, we explore the quality and efficiency frontier across 11 datatypes by evaluating their model accuracy and hardware complexity. We discover a Pareto curve composed of INT4, E2M1, and E2M1 with supernormal support, which offers a continuous tradeoff between model accuracy and chip area. For example, E2M1 with supernormal support increases the accuracy of Phi-2 by up to 2.19% with 1.22% area overhead, enabling more LLM-based applications to be run at four bits. The supporting code is hosted at https://github.com/cornell-zhang/llm-datatypes.
- Abstract(参考訳): 大規模言語モデル(LLM)のサイズが大きくなるには、従来、厳格なレイテンシと電力需要を満たすために、低精度の整数形式が必要となる。
最近では、NF4(Normal Float)のような代替フォーマットが、チップ面積の増加によるモデル精度の向上を実現している。
本研究ではまず,30のネットワークにわたるLLM重みとアクティベーションの大規模解析を行い,ほとんどの分布は学生のt分布に従っていると結論づける。
次に、LLaMA2-7Bにおける平均精度をタスク毎に0.76%向上させる、理論上最適な新しい形式である学生フロート(SF4)を導出する。
このフォーマットを高精度な参照として使用し、モデル精度を高めるための2種類の超正規サポートを持つ拡張E2M1を提案する。
最後に、モデル精度とハードウェアの複雑さを評価し、11のデータタイプにわたる品質と効率のフロンティアについて検討する。
超正規サポートを持つINT4, E2M1, E2M1からなるPareto曲線を発見し, モデル精度とチップ面積の連続的なトレードオフを提供する。
例えば、超正規サポートを持つE2M1は、1.22%のオーバヘッドでPhi-2の精度を2.19%向上させ、LCMベースのアプリケーションを4ビットで実行できるようにする。
サポートコードはhttps://github.com/cornell-zhang/llm-datatypesでホストされている。
関連論文リスト
- DQRM: Deep Quantized Recommendation Models [34.73674946187648]
大規模なレコメンデーションモデルは、多くの大手インターネット企業にとって主要な作業負荷である。
これらの1TB以上のテーブルのサイズは、レコメンデーションモデルのトレーニングと推論に深刻なメモリボトルネックを課す。
我々は、最先端のディープラーニング勧告モデル(DLRM)に基づいて、小規模で強力で、実行および訓練に効率の良い新しい推薦フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-26T02:33:52Z) - COMET: Towards Partical W4A4KV4 LLMs Serving [37.30529940231099]
量子化は、端末デバイスやクラウドデータセンターで大規模言語モデル(LLM)を提供するオーバーヘッドを低減するための圧縮技術である。
本稿では,ほとんどのアクティベーションを4ビットに圧縮し,精度損失を無視できる新しい混合精度量子化アルゴリズム(FMPQ)を提案する。
我々は、最適化されたW4Axカーネルを推論フレームワークCOMETに統合し、人気のあるLLMをサポートするための効率的な管理を提供する。
論文 参考訳(メタデータ) (2024-10-16T02:16:53Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Direct Alignment of Draft Model for Speculative Decoding with Chat-Fine-Tuned LLMs [11.245862832561176]
投機的復号化による推論アクセラレーションを実現するためには、高品質なドラフトモデルをトレーニングする必要がある。
我々は、Llama 2 Chat Drafter 115M、Llama 2 Chat 7B以上のドラフトモデル、オリジナルサイズの1.64%しか持たないLlama 2 Chat Drafter 115Mを訓練する。
Llama 2 Chat Dr After 115M with speculative decoding は最大2.3ブロック効率と2.4$times$ speed-upを実現している。
論文 参考訳(メタデータ) (2024-02-29T19:55:06Z) - FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models
for Financial Applications with High-Performance Computing [10.47214968497857]
本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。
本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。
ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
論文 参考訳(メタデータ) (2024-02-21T05:03:17Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。