Fugu-MT 論文翻訳(概要): Dissecting the Runtime Performance of the Training, Fine-tuning, and Inference of Large Language Models

論文の概要: Dissecting the Runtime Performance of the Training, Fine-tuning, and Inference of Large Language Models

arxiv url: http://arxiv.org/abs/2311.03687v2
Date: Fri, 1 Dec 2023 15:37:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 17:33:44.133376
Title: Dissecting the Runtime Performance of the Training, Fine-tuning, and Inference of Large Language Models
Title（参考訳）: 大規模言語モデルの訓練・微調整・推論における実行時性能の判別
Authors: Longteng Zhang, Xiang Liu, Zeyu Li, Xinglin Pan, Peijie Dong, Ruibo Fan, Rui Guo, Xin Wang, Qiong Luo, Shaohuai Shi, Xiaowen Chu
Abstract要約: 大規模言語モデル(LLM)は、学術と産業の両方で大きく進歩している。我々は,事前学習,微調整,LLMを異なるサイズで提供する場合のエンドツーエンド性能をベンチマークする。次に,LLMにおける計算処理や通信演算子など,サブモジュールの詳細なランタイム解析を行う。
参考スコア（独自算出の注目度）: 26.2566707495948
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have seen great advance in both academia and industry, and their popularity results in numerous open-source frameworks and techniques in accelerating LLM pre-training, fine-tuning, and inference. Training and deploying LLMs are expensive as it requires considerable computing resources and memory, hence many efficient approaches have been developed for improving system pipelines as well as operators. However, the runtime performance can vary significantly across hardware and software stacks, which makes it difficult to choose the best configuration. In this work, we aim to benchmark the performance from both macro and micro perspectives. First, we benchmark the end-to-end performance of pre-training, fine-tuning, and serving LLMs in different sizes , i.e., 7, 13, and 70 billion parameters (7B, 13B, and 70B) on three 8-GPU platforms with and without individual optimization techniques, including ZeRO, quantization, recomputation, FlashAttention. Then, we dive deeper to provide a detailed runtime analysis of the sub-modules, including computing and communication operators in LLMs. For end users, our benchmark and findings help better understand different optimization techniques, training and inference frameworks, together with hardware platforms in choosing configurations for deploying LLMs. For researchers, our in-depth module-wise analyses discover potential opportunities for future work to further optimize the runtime performance of LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、学術と産業の両方において大きな進歩を遂げており、その人気は、LLM事前学習、微調整、推論を加速する多くのオープンソースフレームワークと技術をもたらす。 LLMの訓練と展開は、かなりの計算資源とメモリを必要とするためコストがかかるため、システムパイプラインとオペレーターの改善のために多くの効率的なアプローチが開発されている。しかし、ランタイムのパフォーマンスはハードウェアとソフトウェアスタックによって大きく異なるため、最高の構成を選択することは困難である。本研究では,マクロとマイクロの両方の観点から性能をベンチマークすることを目的とする。まず、ZeRO、量子化、再計算、FlashAttentionを含む、個別に最適化された3つの8GPUプラットフォーム上の7, 13, 70億のパラメータ(7B, 13B, 70B)の異なるサイズで、事前トレーニング、微調整、サービスLLMのエンドツーエンドのパフォーマンスをベンチマークする。次に,LLMにおける計算処理や通信演算子を含む,サブモジュールの詳細なランタイム解析を行う。エンドユーザにとって、私たちのベンチマークと調査結果は、LLMをデプロイするための構成を選択するハードウェアプラットフォームとともに、さまざまな最適化テクニック、トレーニング、推論フレームワークをより理解するのに役立ちます。研究者にとって、我々は、LLMのランタイム性能をさらに最適化する将来的な作業の可能性を見出した。

関連論文リスト

Improving Assembly Code Performance with Large Language Models via Reinforcement Learning [9.20863636863631]
大規模言語モデル(LLM)は、幅広いプログラミングタスクにおいて強力なパフォーマンスを示している。本稿では,PPO(Proximal Policy Optimization)を用いたLLM学習のための強化学習フレームワークを提案する。我々のモデルであるQwen2.5-Coder-7B-PPOは96.4%のテストパス率を獲得し、gcc-O3ベースライン上での平均速度は1.47倍である。
論文参考訳（メタデータ） (2025-05-16T17:40:45Z)
Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文参考訳（メタデータ） (2025-03-12T17:50:42Z)
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2024-11-15T18:59:27Z)
Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective [32.827076621809965]
大規模言語モデル(LLM)は、自然言語理解からテキスト生成に至るまで、様々な分野において顕著な能力を示している。生成LDMの進歩は、ハードウェア機能の開発と密接に絡み合っている。本稿では,異なるハードウェアプラットフォーム上での効率的なLLM推論を包括的に調査する。
論文参考訳（メタデータ） (2024-10-06T12:42:04Z)
LLM-Pilot: Characterize and Optimize Performance of your LLM Inference Services [0.5143325455623888]
LLM-Pilot は LLM 推論サービスの性能を評価・予測するための第一種システムである。予測モデルを学び、これまで見つからなかったLCMのために最もコスト効率の良いハードウェアを推奨することができる。既存の方法と比較して、LLM-Pilotはパフォーマンス要件を33%頻繁に提供し、コストを平均60%削減できる。
論文参考訳（メタデータ） (2024-10-03T12:19:06Z)
Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めたモデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文参考訳（メタデータ） (2024-09-07T13:57:41Z)
LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。 LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文参考訳（メタデータ） (2024-08-31T17:19:30Z)
The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文参考訳（メタデータ） (2024-08-23T14:48:02Z)
ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency [20.33467627548677]
大規模言語モデル(LLM)は人気が高まり、商用アプリケーションで広く使われている。 LLMサービスシステムにおいて、エンドツーエンドのレイテンシに影響を及ぼす大きなボトルネックを特定するために、詳細な分析を行う。次に,資源効率の高いLLMサービスのための最適化システムであるScaleLLMを提案する。
論文参考訳（メタデータ） (2024-07-23T23:37:29Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
CoLLiE: Collaborative Training of Large Language Models in an Efficient Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文参考訳（メタデータ） (2023-12-01T08:02:16Z)
FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文参考訳（メタデータ） (2023-09-01T09:40:36Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。