Fugu-MT 論文翻訳(概要): FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models for Financial Applications with High-Performance Computing

論文の概要: FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models for Financial Applications with High-Performance Computing

arxiv url: http://arxiv.org/abs/2402.13533v1
Date: Wed, 21 Feb 2024 05:03:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 16:56:53.949201
Title: FinGPT-HPC: Efficient Pretraining and Finetuning Large Language Models for Financial Applications with High-Performance Computing
Title（参考訳）: FinGPT-HPC:高性能コンピューティングを用いた金融アプリケーションのための大規模言語モデルの効率的な事前学習と微調整
Authors: Xiao-Yang Liu, Jie Zhang, Guoxuan Wang, Weiqing Tong, and Anwar Walid
Abstract要約: 本稿では,低ランク構造を利用した大規模言語モデルの事前学習と微調整を行う高性能手法を提案する。本手法は精度低下を伴わずに保持できる1.3Xの高速化と2.64Xのモデル圧縮比を実現する。ファインタニングでは,一般タスクと財務タスクの平均精度が6.3%,24.0%向上した。
参考スコア（独自算出の注目度）: 10.47214968497857
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are computationally intensive. The computation workload and the memory footprint grow quadratically with the dimension (layer width). Most of LLMs' parameters come from the linear layers of the transformer structure and are highly redundant. These linear layers contribute more than 80% of the computation workload and 99% of the model size. To pretrain and finetune LLMs efficiently, there are three major challenges to address: 1) reducing redundancy of the linear layers; 2) reducing GPU memory footprint; 3) improving GPU utilization when using distributed training. Prior methods, such as LoRA and QLoRA, utilized low-rank matrices and quantization to reduce the number of trainable parameters and model size, respectively. However, the resulting model still consumes a large amount of GPU memory. In this paper, we present high-performance GPU-based methods that exploit low-rank structures to pretrain and finetune LLMs for financial applications. We replace one conventional linear layer of the transformer structure with two narrower linear layers, which allows us to reduce the number of parameters by several orders of magnitude. By quantizing the parameters into low precision (8-bit and 4-bit), the memory consumption of the resulting model is further reduced. Compared with existing LLMs, our methods achieve a speedup of 1.3X and a model compression ratio of 2.64X for pretaining without accuracy drop. For finetuning, our methods achieve an average accuracy increase of 6.3% and 24.0% in general tasks and financial tasks, respectively, and GPU memory consumption ratio of 6.3X. The sizes of our models are smaller than 0.59 GB, allowing inference on a smartphone.
Abstract（参考訳）: 大規模言語モデル(llm)は計算量が多い。計算作業負荷とメモリフットプリントは次元(層幅)と2倍に増加する。 LLMのパラメータのほとんどはトランス構造の線形層から来ており、非常に冗長である。これらの線形層は計算ワークロードの80%以上とモデルサイズの99%を占めている。 LLMの事前訓練と微調整には,3つの大きな課題がある。 1) 線状層の冗長性を低減すること。 2) GPUメモリフットプリントの削減 3) 分散トレーニングにおけるGPU利用率の向上。 LoRAやQLoRAといった以前の手法では、トレーニング可能なパラメータの数とモデルサイズをそれぞれ削減するために、低ランク行列と量子化を使用していた。しかし、結果のモデルは依然として大量のGPUメモリを消費する。本稿では,低ランク構造を利用して金融分野のllmの事前学習と微調整を行う高性能gpuベースの手法を提案する。変圧器構造の1つの従来の線形層を2つのより狭い線形層に置き換えることにより,パラメータ数を数桁削減できる。パラメータを低精度(8ビットおよび4ビット)に定量化することで、得られたモデルのメモリ消費はさらに削減される。既存のLCMと比較すると,精度低下を伴わないモデル圧縮比2.64倍の高速化を実現している。微調整では,一般的なタスクにおける平均精度が6.3%,財務タスクが24.0%,gpuメモリ使用率が6.3倍に向上した。われわれのモデルのサイズは0.59GB以下で、スマートフォンで推測できる。

関連論文リスト

Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文参考訳（メタデータ） (2025-05-21T02:23:01Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,CoLAとそのメモリ効率向上実装であるCoLA-Mを紹介する。モデルアクティベーションにおいて広く観測される低ランク構造を利用して、モデルサイズを削減し、モデルのキャパシティを向上し、トレーニング効率を向上させる。 6000万から70億のパラメータを持つLLaMAモデルの実験では、CoLAはコンピューティングコストを$bf 2pmbtimes$で削減し、フルランクレベルのパフォーマンスを維持しながら、トレーニングスループットを$bf 1.86pmbtimes$で改善している。
論文参考訳（メタデータ） (2025-02-16T01:05:16Z)
Scalable MatMul-free Language Modeling [8.672867887354977]
MatMul操作は大規模言語モデルから完全に除去可能であることを示す。提案するMatMulフリーモデルは,最先端のトランスフォーマーと同等の性能を実現する。
論文参考訳（メタデータ） (2024-06-04T17:50:34Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文参考訳（メタデータ） (2024-03-06T07:29:57Z)
FlattenQuant: Breaking Through the Inference Compute-bound for Large Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文参考訳（メタデータ） (2024-02-28T02:00:34Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。 SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文参考訳（メタデータ） (2023-06-05T17:53:28Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。