論文の概要: INT-FP-QSim: Mixed Precision and Formats For Large Language Models and
Vision Transformers
- arxiv url: http://arxiv.org/abs/2307.03712v1
- Date: Fri, 7 Jul 2023 16:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 11:51:47.153692
- Title: INT-FP-QSim: Mixed Precision and Formats For Large Language Models and
Vision Transformers
- Title(参考訳): INT-FP-QSim:大規模言語モデルと視覚変換器の混合精度とフォーマット
- Authors: Lakshmi Nair, Mikhail Bernadskiy, Arulselvan Madhavan, Craig Chan,
Ayon Basumallik, Darius Bunandar
- Abstract要約: INT-FP-QSimはオープンソースのシミュレータで、様々な数値やフォーマットで大きな言語モデル(LLM)を柔軟に評価できる。
4ビットの重みと4ビットまたは8ビットのアクティベーションにおけるLLMとビジョントランスフォーマーの性能に及ぼす異なる数値形式の影響を調査した。
- 参考スコア(独自算出の注目度): 1.8703050317383323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent rise of large language models (LLMs) has resulted in increased
efforts towards running LLMs at reduced precision. Running LLMs at lower
precision supports resource constraints and furthers their democratization,
enabling users to run billion-parameter LLMs on their personal devices. To
supplement this ongoing effort, we propose INT-FP-QSim: an open-source
simulator that enables flexible evaluation of LLMs and vision transformers at
various numerical precisions and formats. INT-FP-QSim leverages existing
open-source repositories such as TensorRT, QPytorch and AIMET for a combined
simulator that supports various floating point and integer formats. With the
help of our simulator, we survey the impact of different numerical formats on
the performance of LLMs and vision transformers at 4-bit weights and 4-bit or
8-bit activations. We also compare recently proposed methods like Adaptive
Block Floating Point, SmoothQuant, GPTQ and RPTQ on the model performances. We
hope INT-FP-QSim will enable researchers to flexibly simulate models at various
precisions to support further research in quantization of LLMs and vision
transformers.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の台頭により,LLMの精度向上への取り組みが高まっている。
低精度でのLDMの実行はリソースの制約をサポートし、その民主化をさらに促進し、ユーザはパーソナルデバイス上で10億パラメートルのLSMを実行することができる。
int-fp-qsimは様々な数値的精度とフォーマットでllmや視覚トランスフォーマーを柔軟に評価できるオープンソースのシミュレータである。
INT-FP-QSimはTensorRT、QPytorch、AIMETといった既存のオープンソースリポジトリを活用して、様々な浮動小数点と整数形式をサポートするシミュレータを組み合わせている。
シミュレータの助けを借りて,4ビット重みと4ビット,8ビットアクティベーションにおけるLLMおよびビジョントランスフォーマーの性能に及ぼす異なる数値形式の影響を調査した。
また,最近提案されたAdaptive Block Floating Point, SmoothQuant, GPTQ, RPTQといった手法をモデル性能で比較した。
INT-FP-QSimは、研究者が様々な精度でモデルを柔軟にシミュレートし、LCMや視覚変換器の量子化におけるさらなる研究を支援することを期待する。
関連論文リスト
- PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs
for Embodied AI [10.82017289243097]
LLM(Large Language Models)は、事前訓練されたエンコーダを通じて様々な入力データモダリティを推論することができる。
m-LLMは、既存の最良のスキームと比較してタスクの精度を最大4%改善する。
論文 参考訳(メタデータ) (2023-12-13T04:08:59Z) - Confidant: Customizing Transformer-based LLMs via Collaborative Edge
Training [18.526329975259483]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的な機能を示している。
コンピューティング、メモリ、エネルギー予算に制限のあるモバイルエッジデバイスにLSMをデプロイし、微調整することは困難である。
我々は,コモディティモバイルデバイス上での最先端のLCMをカスタマイズするためのマルチバックエンド協調学習フレームワークであるConfidantを提案する。
論文 参考訳(メタデータ) (2023-11-22T13:20:59Z) - LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。
整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。
LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文 参考訳(メタデータ) (2023-10-25T17:59:32Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
大規模言語モデル(LLM)は、多数のアプリケーションの能力を変革した。
エッジデバイス上でのLSMの実行により、レイテンシの低減とユーザエクスペリエンスの向上を実現している。
低ビット量のみの量子化のためのアクティベーション・アウェア・ウェイト量子化(AWQ)を提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - Vision Transformer Slimming: Multi-Dimension Searching in Continuous
Optimization Space [35.04846842178276]
複数の次元にまたがってそのようなサブ構造を探索できる純粋視覚トランスフォーマースライミング(ViT-Slim)フレームワークを導入する。
本手法は,各次元の連続探索空間におけるグローバルな重要性を反映した,事前定義された因子による学習可能かつ統一されたl1空間制約に基づく。
我々のViT-Slimは、パラメータの最大40%と様々な視覚変換器上でのFLOPを圧縮でき、ImageNetの精度は0.6%向上する。
論文 参考訳(メタデータ) (2022-01-03T18:59:54Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。