論文の概要: FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models
for Financial Applications with High-Performance Computing
- arxiv url: http://arxiv.org/abs/2402.13533v1
- Date: Wed, 21 Feb 2024 05:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:56:53.949201
- Title: FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models
for Financial Applications with High-Performance Computing
- Title(参考訳): FinGPT-HPC:高性能コンピューティングを用いた金融アプリケーションのための大規模言語モデルの効率的な事前学習と微調整
- Authors: Xiao-Yang Liu, Jie Zhang, Guoxuan Wang, Weiqing Tong, and Anwar Walid
- Abstract要約: 本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。
本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。
ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
- 参考スコア(独自算出の注目度): 10.47214968497857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are computationally intensive. The computation
workload and the memory footprint grow quadratically with the dimension (layer
width). Most of LLMs' parameters come from the linear layers of the transformer
structure and are highly redundant. These linear layers contribute more than
80% of the computation workload and 99% of the model size. To pretrain and
finetune LLMs efficiently, there are three major challenges to address: 1)
reducing redundancy of the linear layers; 2) reducing GPU memory footprint; 3)
improving GPU utilization when using distributed training. Prior methods, such
as LoRA and QLoRA, utilized low-rank matrices and quantization to reduce the
number of trainable parameters and model size, respectively. However, the
resulting model still consumes a large amount of GPU memory. In this paper, we
present high-performance GPU-based methods that exploit low-rank structures to
pretrain and finetune LLMs for financial applications. We replace one
conventional linear layer of the transformer structure with two narrower linear
layers, which allows us to reduce the number of parameters by several orders of
magnitude. By quantizing the parameters into low precision (8-bit and 4-bit),
the memory consumption of the resulting model is further reduced. Compared with
existing LLMs, our methods achieve a speedup of 1.3X and a model compression
ratio of 2.64X for pretaining without accuracy drop. For finetuning, our
methods achieve an average accuracy increase of 6.3% and 24.0% in general tasks
and financial tasks, respectively, and GPU memory consumption ratio of 6.3X.
The sizes of our models are smaller than 0.59 GB, allowing inference on a
smartphone.
- Abstract(参考訳): 大規模言語モデル(llm)は計算量が多い。
計算作業負荷とメモリフットプリントは次元(層幅)と2倍に増加する。
LLMのパラメータのほとんどはトランス構造の線形層から来ており、非常に冗長である。
これらの線形層は計算ワークロードの80%以上とモデルサイズの99%を占めている。
LLMの事前訓練と微調整には,3つの大きな課題がある。
1) 線状層の冗長性を低減すること。
2) GPUメモリフットプリントの削減
3) 分散トレーニングにおけるGPU利用率の向上。
LoRAやQLoRAといった以前の手法では、トレーニング可能なパラメータの数とモデルサイズをそれぞれ削減するために、低ランク行列と量子化を使用していた。
しかし、結果のモデルは依然として大量のGPUメモリを消費する。
本稿では,低ランク構造を利用して金融分野のllmの事前学習と微調整を行う高性能gpuベースの手法を提案する。
変圧器構造の1つの従来の線形層を2つのより狭い線形層に置き換えることにより,パラメータ数を数桁削減できる。
パラメータを低精度(8ビットおよび4ビット)に定量化することで、得られたモデルのメモリ消費はさらに削減される。
既存のLCMと比較すると,精度低下を伴わないモデル圧縮比2.64倍の高速化を実現している。
微調整では,一般的なタスクにおける平均精度が6.3%,財務タスクが24.0%,gpuメモリ使用率が6.3倍に向上した。
われわれのモデルのサイズは0.59GB以下で、スマートフォンで推測できる。
関連論文リスト
- GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [139.19973370560533]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - FlattenQuant: Breaking Through the Inference Compute-bound for Large
Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。
我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文 参考訳(メタデータ) (2024-02-28T02:00:34Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - SliceGPT: Compress Large Language Models by Deleting Rows and Columns [27.004657436024853]
SliceGPTは,各重み行列をより小さい(高密度)行列に置き換え,ネットワークの埋め込み次元を小さくする,新しい学習後スペーシング方式である。
SliceGPT は LLAMA2-70B OPT 66B と Phi-2 のモデルパラメータの最大25% (埋め込みを含む) を,99%,99%,90% のゼロショットタスク性能を維持しながら除去可能であることを示す。
論文 参考訳(メタデータ) (2024-01-26T17:35:45Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。