論文の概要: INT-FP-QSim: Mixed Precision and Formats For Large Language Models and
Vision Transformers
- arxiv url: http://arxiv.org/abs/2307.03712v1
- Date: Fri, 7 Jul 2023 16:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 11:51:47.153692
- Title: INT-FP-QSim: Mixed Precision and Formats For Large Language Models and
Vision Transformers
- Title(参考訳): INT-FP-QSim:大規模言語モデルと視覚変換器の混合精度とフォーマット
- Authors: Lakshmi Nair, Mikhail Bernadskiy, Arulselvan Madhavan, Craig Chan,
Ayon Basumallik, Darius Bunandar
- Abstract要約: INT-FP-QSimはオープンソースのシミュレータで、様々な数値やフォーマットで大きな言語モデル(LLM)を柔軟に評価できる。
4ビットの重みと4ビットまたは8ビットのアクティベーションにおけるLLMとビジョントランスフォーマーの性能に及ぼす異なる数値形式の影響を調査した。
- 参考スコア(独自算出の注目度): 1.8703050317383323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent rise of large language models (LLMs) has resulted in increased
efforts towards running LLMs at reduced precision. Running LLMs at lower
precision supports resource constraints and furthers their democratization,
enabling users to run billion-parameter LLMs on their personal devices. To
supplement this ongoing effort, we propose INT-FP-QSim: an open-source
simulator that enables flexible evaluation of LLMs and vision transformers at
various numerical precisions and formats. INT-FP-QSim leverages existing
open-source repositories such as TensorRT, QPytorch and AIMET for a combined
simulator that supports various floating point and integer formats. With the
help of our simulator, we survey the impact of different numerical formats on
the performance of LLMs and vision transformers at 4-bit weights and 4-bit or
8-bit activations. We also compare recently proposed methods like Adaptive
Block Floating Point, SmoothQuant, GPTQ and RPTQ on the model performances. We
hope INT-FP-QSim will enable researchers to flexibly simulate models at various
precisions to support further research in quantization of LLMs and vision
transformers.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の台頭により,LLMの精度向上への取り組みが高まっている。
低精度でのLDMの実行はリソースの制約をサポートし、その民主化をさらに促進し、ユーザはパーソナルデバイス上で10億パラメートルのLSMを実行することができる。
int-fp-qsimは様々な数値的精度とフォーマットでllmや視覚トランスフォーマーを柔軟に評価できるオープンソースのシミュレータである。
INT-FP-QSimはTensorRT、QPytorch、AIMETといった既存のオープンソースリポジトリを活用して、様々な浮動小数点と整数形式をサポートするシミュレータを組み合わせている。
シミュレータの助けを借りて,4ビット重みと4ビット,8ビットアクティベーションにおけるLLMおよびビジョントランスフォーマーの性能に及ぼす異なる数値形式の影響を調査した。
また,最近提案されたAdaptive Block Floating Point, SmoothQuant, GPTQ, RPTQといった手法をモデル性能で比較した。
INT-FP-QSimは、研究者が様々な精度でモデルを柔軟にシミュレートし、LCMや視覚変換器の量子化におけるさらなる研究を支援することを期待する。
関連論文リスト
- The Power of Negative Zero: Datatype Customization for Quantized Large Language Models [5.503925076208333]
学習後の量子化は、大規模言語モデル(LLM)のメモリと計算要求を緩和する最もハードウェア効率の良い方法の1つである。
本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行う。
RaZeRは、負のゼロFPエンコーディングを、FP量子化エンコーディングを最大限活用し、数値分布をよりよく適合させるために、予め定義された特別な値のセットに再マップする。
論文 参考訳(メタデータ) (2025-01-06T22:40:40Z) - Anda: Unlocking Efficient LLM Inference with a Variable-Length Grouped Activation Data Format [5.527166214435735]
量子化大言語モデル(LLM)は低ビット整数(INT)重みを利用し、浮動小数点(FP)アクティベーションを保持する。
これにより、コストのかかるメモリアクセスと計算に関連するFPアクティベーションに、エネルギとレイテンシのボトルネックがシフトする。
既存のLCMアクセラレータは、FP計算とデータ移動を協調的に最適化する可能性を見越して、計算最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-11-24T20:59:39Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - MetaOpenFOAM: an LLM-based multi-agent framework for CFD [11.508919041921942]
MetaOpenFOAMは、新しいマルチエージェントコラボレーションフレームワークである。
入力として自然言語のみを用いてCFDシミュレーションタスクを完了することを目的としている。
MetaGPTのアセンブリラインパラダイムのパワーを利用する。
論文 参考訳(メタデータ) (2024-07-31T04:01:08Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Vision Transformer Slimming: Multi-Dimension Searching in Continuous
Optimization Space [35.04846842178276]
複数の次元にまたがってそのようなサブ構造を探索できる純粋視覚トランスフォーマースライミング(ViT-Slim)フレームワークを導入する。
本手法は,各次元の連続探索空間におけるグローバルな重要性を反映した,事前定義された因子による学習可能かつ統一されたl1空間制約に基づく。
我々のViT-Slimは、パラメータの最大40%と様々な視覚変換器上でのFLOPを圧縮でき、ImageNetの精度は0.6%向上する。
論文 参考訳(メタデータ) (2022-01-03T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。