論文の概要: Optimization of Armv9 architecture general large language model inference performance based on Llama.cpp
- arxiv url: http://arxiv.org/abs/2406.10816v1
- Date: Sun, 16 Jun 2024 06:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 20:41:29.319557
- Title: Optimization of Armv9 architecture general large language model inference performance based on Llama.cpp
- Title(参考訳): Llama.cppに基づくArmv9アーキテクチャの汎用大言語モデル推論性能の最適化
- Authors: Longhao Chen, Yina Zhao, Qiangjun Xie, Qinghua Sheng,
- Abstract要約: 本稿では、Int8量子化を行い、ラマ中の演算子をベクトル化し、コンパイルスクリプトを変更することにより、Qwen-1.8Bモデルの推論性能を最適化する。
Yitian 710実験プラットフォームでは、プリフィル性能が1.6倍に向上し、復号性能が24倍に向上し、メモリ使用量が元の1/5に減少し、精度損失はほぼ無視される。
- 参考スコア(独自算出の注目度): 0.3749861135832073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article optimizes the inference performance of the Qwen-1.8B model by performing Int8 quantization, vectorizing some operators in llama.cpp, and modifying the compilation script to improve the compiler optimization level. On the Yitian 710 experimental platform, the prefill performance is increased by 1.6 times, the decoding performance is increased by 24 times, the memory usage is reduced to 1/5 of the original, and the accuracy loss is almost negligible.
- Abstract(参考訳): 本稿では、Int8量子化を実行し、llama.cppで演算子をベクトル化し、コンパイラの最適化レベルを改善するためにコンパイルスクリプトを変更することにより、Qwen-1.8Bモデルの推論性能を最適化する。
Yitian 710実験プラットフォームでは、プリフィル性能が1.6倍に向上し、復号性能が24倍に向上し、メモリ使用量が元の1/5に減少し、精度損失はほぼ無視される。
関連論文リスト
- Iterative or Innovative? A Problem-Oriented Perspective for Code Optimization [81.88668100203913]
大規模言語モデル(LLM)は、幅広いプログラミングタスクを解く上で強力な能力を示している。
本稿では,パフォーマンス向上に着目したコード最適化について検討する。
論文 参考訳(メタデータ) (2024-06-17T16:10:10Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Large Language Models for Compiler Optimization [22.52765975286403]
コードサイズに対してLLVMアセンブリを最適化するために,スクラッチからトレーニングしたトランスフォーマーモデルを提案する。
最適化前後の命令数と最適化コード自体を予測する。
提案手法は,コンパイラよりも命令数の削減が3.0%向上する。
論文 参考訳(メタデータ) (2023-09-11T22:11:46Z) - CHERI Performance Enhancement for a Bytecode Interpreter [0.0]
我々は、ネイティブポインタ(一般に64ビット)と比較して、CHERI機能(128ビット)が大きいため、ある種類のソフトウェアが引き起こすランタイムオーバーヘッドを取り除くことができることを示す。
最悪の場合のスローダウンは100倍(最適化前)から2倍(最適化後)まで大幅に改善される。
論文 参考訳(メタデータ) (2023-08-09T17:12:23Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Learning to Superoptimize Real-world Programs [79.4140991035247]
本稿では,ニューラルシークエンス・ツー・シーケンス・モデルを用いて,実世界のプログラムを最適化するフレームワークを提案する。
我々は、x86-64アセンブリでオープンソースプロジェクトから抽出された25万以上の実世界の関数からなるデータセットであるBig Assemblyベンチマークを紹介した。
論文 参考訳(メタデータ) (2021-09-28T05:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。