論文の概要: A Survey on Memory-Efficient Large-Scale Model Training in AI for Science
- arxiv url: http://arxiv.org/abs/2501.11847v1
- Date: Tue, 21 Jan 2025 03:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 19:37:19.55768
- Title: A Survey on Memory-Efficient Large-Scale Model Training in AI for Science
- Title(参考訳): 科学のためのAIにおけるメモリ効率のよい大規模モデルトレーニングに関する調査研究
- Authors: Kaiyuan Tian, Linbo Qiao, Baihui Liu, Gongqingjian Jiang, Dongsheng Li,
- Abstract要約: この調査は、生物学、医学、化学、気象学などの科学分野にまたがる応用をレビューする。
本稿では,変圧器アーキテクチャに基づく大規模言語モデル(LLM)のメモリ効率トレーニング手法について概説する。
予測精度を保ちながら,メモリ最適化手法がストレージ需要を削減できることを実証する。
- 参考スコア(独自算出の注目度): 20.31466892935848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific research faces high costs and inefficiencies with traditional methods, but the rise of deep learning and large language models (LLMs) offers innovative solutions. This survey reviews LLM applications across scientific fields such as biology, medicine, chemistry, and meteorology, underscoring their role in advancing research. However, the continuous expansion of model size has led to significant memory demands, hindering further development and application of LLMs for science. To address this, we review memory-efficient training techniques for LLMs based on the transformer architecture, including distributed training, mixed precision training, and gradient checkpointing. Using AlphaFold 2 as an example, we demonstrate how tailored memory optimization methods can reduce storage needs while preserving prediction accuracy. We also discuss the challenges of memory optimization in practice and potential future directions, hoping to provide valuable insights for researchers and engineers.
- Abstract(参考訳): 科学研究は従来の手法では高いコストと非効率に直面するが、ディープラーニングと大規模言語モデル(LLM)の台頭は革新的な解決策を提供する。
本調査は, 生物学, 医学, 化学, 気象学などの科学分野にまたがる LLM の応用を概観し, 研究の進展におけるその役割を明らかにした。
しかし、モデルサイズを継続的に拡大することでメモリ需要が大幅に増加し、科学へのLLMのさらなる開発と応用が妨げられた。
そこで本研究では,分散トレーニング,混合精度トレーニング,勾配チェックポインティングなど,トランスフォーマアーキテクチャに基づくLCMのメモリ効率向上トレーニング手法について検討する。
例としてAlphaFold 2を用いて,予測精度を保ちながら,メモリ最適化手法がストレージニーズを低減できることを示す。
我々はまた、研究者やエンジニアに貴重な洞察を提供することを望んで、実践におけるメモリ最適化の課題と将来的な方向性についても論じる。
関連論文リスト
- Reasoning Under 1 Billion: Memory-Augmented Reinforcement Learning for Large Language Models [53.4530106173067]
強化学習(RL)を伴う大規模言語モデル(LLM)は、複雑な推論タスクにおいて有望な改善を示す。
RLは10億のパラメータを持つ小さなLLMでは、効果的に探索するために必要な事前訓練能力が欠如しているため、依然として困難である。
この研究は、この課題に対処するためにエピソード記憶を活用する、新しい本質的なモチベーションアプローチを導入する。
論文 参考訳(メタデータ) (2025-04-03T04:46:17Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey [51.87875066383221]
本稿では、基本概念、従来の手法、ベンチマークデータセットを紹介し、CFDを改善する上で機械学習が果たす様々な役割について検討する。
我々は,空気力学,燃焼,大気・海洋科学,生物流体,プラズマ,記号回帰,秩序の低減など,CFDにおけるMLの現実的な応用を強調した。
シミュレーションの精度を向上し、計算時間を短縮し、流体力学のより複雑な解析を可能にすることにより、MLはCFD研究を大きく変革する可能性があるという結論を導いた。
論文 参考訳(メタデータ) (2024-08-22T07:33:11Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Towards Efficient Generative Large Language Model Serving: A Survey from
Algorithms to Systems [14.355768064425598]
生成型大規模言語モデル(LLM)が最前線に立ち、データとのインタラクション方法に革命をもたらします。
しかし、これらのモデルをデプロイする際の計算強度とメモリ消費は、効率性の観点から大きな課題を呈している。
本研究は,機械学習システム(MLSys)研究の観点から,効率的なLCM提供手法の必要性について考察する。
論文 参考訳(メタデータ) (2023-12-23T11:57:53Z) - The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。
本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文 参考訳(メタデータ) (2023-12-01T16:00:25Z) - A Study on the Implementation of Generative AI Services Using an
Enterprise Data-Based LLM Application Architecture [0.0]
本研究では,Large Language Models (LLM) アプリケーションアーキテクチャを用いて生成AIサービスを実装する手法を提案する。
この研究は、不十分なデータの問題を軽減するための戦略を練り上げ、カスタマイズされたソリューションを提供している。
この研究の重要な貢献は、検索型拡張世代(RAG)モデルの開発である。
論文 参考訳(メタデータ) (2023-09-03T07:03:17Z) - A Survey on Model Compression for Large Language Models [21.768293256849113]
大規模言語モデル(LLM)は自然言語処理タスクをうまく変換した。
しかし、その大きなサイズと高い計算要求は、実用上の課題を提起する。
モデル圧縮はこれらの課題に対処するための重要な研究領域として浮上している。
論文 参考訳(メタデータ) (2023-08-15T08:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。