論文の概要: Computational Bottlenecks of Training Small-scale Large Language Models
- arxiv url: http://arxiv.org/abs/2410.19456v1
- Date: Fri, 25 Oct 2024 10:30:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:08.167401
- Title: Computational Bottlenecks of Training Small-scale Large Language Models
- Title(参考訳): 小規模大規模言語モデルの学習用ボットネック
- Authors: Saleh Ashkboos, Iman Mirzadeh, Keivan Alizadeh, Mohammad Hossein Sekhavat, Moin Nabi, Mehrdad Farajtabar, Fartash Faghri,
- Abstract要約: 小型の大規模言語モデル(SLM)は、消費者のコストと効率性の要求により注目されている。
本研究では,SLMの学習における計算的ボトルネックについて検討する。
私たちは、ドル当たりの損失や秒単位のトークンといったメトリクスを使用して、ポピュラーなクラウドサービス上のこれらの要因を評価します。
- 参考スコア(独自算出の注目度): 19.663560481459164
- License:
- Abstract: While large language models (LLMs) dominate the AI landscape, Small-scale large Language Models (SLMs) are gaining attention due to cost and efficiency demands from consumers. However, there is limited research on the training behavior and computational requirements of SLMs. In this study, we explore the computational bottlenecks of training SLMs (up to 2B parameters) by examining the effects of various hyperparameters and configurations, including GPU type, batch size, model size, communication protocol, attention type, and the number of GPUs. We assess these factors on popular cloud services using metrics such as loss per dollar and tokens per second. Our findings aim to support the broader adoption and optimization of language model training for low-resource AI research institutes.
- Abstract(参考訳): 大規模言語モデル(LLM)がAIのランドスケープを支配しているのに対して、小規模大規模言語モデル(SLM)は、消費者のコストと効率性の要求により注目を集めている。
しかし、SLMの訓練行動と計算要求についての研究は限られている。
本研究では,GPUタイプ,バッチサイズ,モデルサイズ,通信プロトコル,アテンションタイプ,GPU数など,さまざまなハイパーパラメータと構成の影響を調べた上で,SLM(最大2Bパラメータ)のトレーニングの計算ボトルネックについて検討する。
私たちは、ドル当たりの損失や秒単位のトークンといったメトリクスを使用して、ポピュラーなクラウドサービス上のこれらの要因を評価します。
我々の研究は、低リソースのAI研究機関における言語モデルトレーニングの広範な採用と最適化を支援することを目的としている。
関連論文リスト
- A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z) - Exploring the Potential of Feature Density in Estimating Machine
Learning Classifier Performance with Application to Cyberbullying Detection [2.4674086273775035]
我々は,機械学習(ML)分類器の性能を訓練前に相対的に推定する方法として,特徴密度(HD)の可能性を分析する。
我々のアプローチ1は、自然言語処理のためのMLモデルのリソース集約的なトレーニングを最適化し、必要な実験の数を減らすことである。
論文 参考訳(メタデータ) (2022-06-04T09:11:13Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。