論文の概要: Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language
Models
- arxiv url: http://arxiv.org/abs/2208.03306v1
- Date: Fri, 5 Aug 2022 17:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:30:55.749988
- Title: Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language
Models
- Title(参考訳): Branch-Train-Merge: エキスパート言語モデルの恥ずかしい並列トレーニング
- Authors: Margaret Li, Suchin Gururangan, Tim Dettmers, Mike Lewis, Tim Althoff,
Noah A. Smith, Luke Zettlemoyer
- Abstract要約: Branch-Train-Merge (BTM) は、大規模言語モデル(LLM)の並列トレーニングのための効率的なアルゴリズムである。
BTMは独立した専門家のLM(ELM)の集合を学習し、それぞれ異なるテキストドメインに特化している。
実験により、BTMはGPTスタイルのトランスフォーマーLMと比較して、ドメイン内および外部のパープレクティビティを改善することが示された。
- 参考スコア(独自算出の注目度): 106.65127123304842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Branch-Train-Merge (BTM), a communication-efficient algorithm for
embarrassingly parallel training of large language models (LLMs). We show it is
possible to independently train subparts of a new class of LLMs on different
subsets of the data, eliminating the massive multi-node synchronization
currently required to train LLMs. BTM learns a set of independent expert LMs
(ELMs), each specialized to a different textual domain, such as scientific or
legal text. These ELMs can be added and removed to update data coverage,
ensembled to generalize to new domains, or averaged to collapse back to a
single LM for efficient inference. New ELMs are learned by branching from
(mixtures of) ELMs in the current set, further training the parameters on data
for the new domain, and then merging the resulting model back into the set for
future use. Experiments show that BTM improves in- and out-of-domain
perplexities as compared to GPT-style Transformer LMs, when controlling for
training cost. Through extensive analysis, we show that these results are
robust to different ELM initialization schemes, but require expert domain
specialization; LM ensembles with random data splits do not perform well. We
also present a study of scaling BTM into a new corpus of 64 domains (192B
whitespace-separated tokens in total); the resulting LM (22.4B total
parameters) performs as well as a Transformer LM trained with 2.5 times more
compute. These gains grow with the number of domains, suggesting more
aggressive parallelism could be used to efficiently train larger models in
future work.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の並列学習を恥ずかしく行う通信効率のアルゴリズムであるブランチ・トレイン・マージ(BTM)を提案する。
我々は、データの異なるサブセット上で、新しいクラスのllmのサブパーツを独立にトレーニングすることができ、現在llmのトレーニングに必要な大量のマルチノード同期を排除できることを示す。
BTMは独立した専門家のLM(ELM)の集合を学び、それぞれが科学や法的なテキストなど、異なるテキスト領域に特化している。
これらのelmは、データカバレッジを更新するために追加および削除したり、新しいドメインに一般化したり、効率的な推論のために平均して単一のlmに戻したりできる。
新しいelmは、現在のセットのelm(mixtures of)から分岐し、新しいドメインのデータでさらにパラメータをトレーニングし、その結果のモデルをセットにマージして、将来の使用のために学習される。
実験により、BTMはトレーニングコストの制御において、GPTスタイルのトランスフォーマーLMに比べて、ドメイン内および外部の難易度が向上することが示された。
広範分析により,これらの結果は異なるEMM初期化方式に対して堅牢であるが,専門領域の専門化が必要であり,乱数分割によるLMアンサンブルはうまく動作しないことがわかった。
また、BTMを64個の領域(合計192Bのホワイトスペース分離トークン)に拡張し、その結果のLM(22.4Bの総パラメータ)と2.5倍の計算量でトレーニングされたTransformer LMを実行する。
これらの向上はドメイン数の増加とともに増大し、将来の作業においてより大きなモデルを効率的にトレーニングするために、より積極的な並列処理が使用されることを示唆する。
関連論文リスト
- Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - Enhancing Discriminative Tasks by Guiding the Pre-trained Language Model with Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。
既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文 参考訳(メタデータ) (2024-07-11T05:38:15Z) - CALRec: Contrastive Alignment of Generative LLMs for Sequential Recommendation [18.986613405565514]
大規模言語モデル(LLM)は、シーケンシャルなレコメンデーションのために大量のテキストコーパスで事前訓練される。
本稿では,2つの対照的な損失と言語モデリング損失を混合して,事前学習したLLMを2tower方式で微調整する2段階のLLMファインタニングフレームワークを提案する。
我々のモデルは、多くの最先端のベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2024-05-03T18:51:19Z) - Simple and Scalable Strategies to Continually Pre-train Large Language Models [20.643648785602462]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。
学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文 参考訳(メタデータ) (2024-03-13T17:58:57Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Parallelizing Legendre Memory Unit Training [5.076419064097734]
新しいリカレントニューラルネットワーク(RNN)であるLegendre Memory Unit(LMU)が提案され、いくつかのベンチマークデータセットで最先端のパフォーマンスを実現することが示されている。
ここでは、LMUの線形時間不変(LTI)メモリコンポーネントを活用して、トレーニング中に並列化可能な簡易な変種を構築する。
並列化を支援するこの変換は、リカレントコンポーネントが線形であるディープネットワークに一般的に適用できるため、最大200倍の高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2021-02-22T23:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。