論文の概要: Low-Precision Training of Large Language Models: Methods, Challenges, and Opportunities
- arxiv url: http://arxiv.org/abs/2505.01043v1
- Date: Fri, 02 May 2025 06:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.935781
- Title: Low-Precision Training of Large Language Models: Methods, Challenges, and Opportunities
- Title(参考訳): 大規模言語モデルの低精度学習:方法,課題,機会
- Authors: Zhiwei Hao, Jianyuan Guo, Li Shen, Yong Luo, Han Hu, Guoxia Wang, Dianhai Yu, Yonggang Wen, Dacheng Tao,
- Abstract要約: 大規模言語(LLM)は、様々な領域で素晴らしいパフォーマンスを実現している。
このトレーニングの課題を軽減するため、低精度のトレーニング技術が広く採用されている。
本調査は,既存の低精度トレーニング手法の総合的なレビューを提供する。
- 参考スコア(独自算出の注目度): 72.21897320340136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved impressive performance across various domains. However, the substantial hardware resources required for their training present a significant barrier to efficiency and scalability. To mitigate this challenge, low-precision training techniques have been widely adopted, leading to notable advancements in training efficiency. Despite these gains, low-precision training involves several components$\unicode{x2013}$such as weights, activations, and gradients$\unicode{x2013}$each of which can be represented in different numerical formats. The resulting diversity has created a fragmented landscape in low-precision training research, making it difficult for researchers to gain a unified overview of the field. This survey provides a comprehensive review of existing low-precision training methods. To systematically organize these approaches, we categorize them into three primary groups based on their underlying numerical formats, which is a key factor influencing hardware compatibility, computational efficiency, and ease of reference for readers. The categories are: (1) fixed-point and integer-based methods, (2) floating-point-based methods, and (3) customized format-based methods. Additionally, we discuss quantization-aware training approaches, which share key similarities with low-precision training during forward propagation. Finally, we highlight several promising research directions to advance this field. A collection of papers discussed in this survey is provided in https://github.com/Hao840/Awesome-Low-Precision-Training.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを実現している。
しかしながら、トレーニングに必要なハードウェアリソースは、効率性とスケーラビリティに重大な障壁をもたらします。
この課題を軽減するために、低精度トレーニング技術が広く採用され、トレーニング効率が顕著に向上した。
これらの利得にもかかわらず、低精度のトレーニングにはいくつかのコンポーネント$\unicode{x2013}$ such as weights, activations, and gradients$\unicode{x2013}$each が含まれる。
結果として生じる多様性は、低精度のトレーニング研究において断片化された風景を生み出し、研究者がこの分野の統一的な概要を得るのを困難にしている。
本調査は,既存の低精度トレーニング手法の総合的なレビューを提供する。
これらの手法を体系的に整理するために, ハードウェアの互換性, 計算効率, 読者への参照容易性に影響を及ぼす重要な要因である, 基礎となる数値形式に基づく3つの主要なグループに分類する。
1)固定点法と整数法、(2)浮動小数点法、(3)カスタマイズされたフォーマット法である。
さらに,前方伝搬中の低精度トレーニングと重要な類似点を共有する量子化対応トレーニング手法についても論じる。
最後に、この分野を前進させるいくつかの有望な研究方針を強調した。
この調査で論じられた論文の集合は、https://github.com/Hao840/Awesome-Low-Precision-Trainingに記載されている。
関連論文リスト
- The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Training few-shot classification via the perspective of minibatch and
pretraining [10.007569291231915]
少ないショット分類は、人間が限られた事前データから概念を学ぶ能力を定式化することを目的とした課題である。
近年,メタラーニングが注目されている。
分類問題におけるミニバッチと事前学習に対応する多相・横断訓練手法を提案する。
論文 参考訳(メタデータ) (2020-04-10T03:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。