論文の概要: Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language
Models
- arxiv url: http://arxiv.org/abs/2208.03306v1
- Date: Fri, 5 Aug 2022 17:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:30:55.749988
- Title: Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language
Models
- Title(参考訳): Branch-Train-Merge: エキスパート言語モデルの恥ずかしい並列トレーニング
- Authors: Margaret Li, Suchin Gururangan, Tim Dettmers, Mike Lewis, Tim Althoff,
Noah A. Smith, Luke Zettlemoyer
- Abstract要約: Branch-Train-Merge (BTM) は、大規模言語モデル(LLM)の並列トレーニングのための効率的なアルゴリズムである。
BTMは独立した専門家のLM(ELM)の集合を学習し、それぞれ異なるテキストドメインに特化している。
実験により、BTMはGPTスタイルのトランスフォーマーLMと比較して、ドメイン内および外部のパープレクティビティを改善することが示された。
- 参考スコア(独自算出の注目度): 106.65127123304842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Branch-Train-Merge (BTM), a communication-efficient algorithm for
embarrassingly parallel training of large language models (LLMs). We show it is
possible to independently train subparts of a new class of LLMs on different
subsets of the data, eliminating the massive multi-node synchronization
currently required to train LLMs. BTM learns a set of independent expert LMs
(ELMs), each specialized to a different textual domain, such as scientific or
legal text. These ELMs can be added and removed to update data coverage,
ensembled to generalize to new domains, or averaged to collapse back to a
single LM for efficient inference. New ELMs are learned by branching from
(mixtures of) ELMs in the current set, further training the parameters on data
for the new domain, and then merging the resulting model back into the set for
future use. Experiments show that BTM improves in- and out-of-domain
perplexities as compared to GPT-style Transformer LMs, when controlling for
training cost. Through extensive analysis, we show that these results are
robust to different ELM initialization schemes, but require expert domain
specialization; LM ensembles with random data splits do not perform well. We
also present a study of scaling BTM into a new corpus of 64 domains (192B
whitespace-separated tokens in total); the resulting LM (22.4B total
parameters) performs as well as a Transformer LM trained with 2.5 times more
compute. These gains grow with the number of domains, suggesting more
aggressive parallelism could be used to efficiently train larger models in
future work.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の並列学習を恥ずかしく行う通信効率のアルゴリズムであるブランチ・トレイン・マージ(BTM)を提案する。
我々は、データの異なるサブセット上で、新しいクラスのllmのサブパーツを独立にトレーニングすることができ、現在llmのトレーニングに必要な大量のマルチノード同期を排除できることを示す。
BTMは独立した専門家のLM(ELM)の集合を学び、それぞれが科学や法的なテキストなど、異なるテキスト領域に特化している。
これらのelmは、データカバレッジを更新するために追加および削除したり、新しいドメインに一般化したり、効率的な推論のために平均して単一のlmに戻したりできる。
新しいelmは、現在のセットのelm(mixtures of)から分岐し、新しいドメインのデータでさらにパラメータをトレーニングし、その結果のモデルをセットにマージして、将来の使用のために学習される。
実験により、BTMはトレーニングコストの制御において、GPTスタイルのトランスフォーマーLMに比べて、ドメイン内および外部の難易度が向上することが示された。
広範分析により,これらの結果は異なるEMM初期化方式に対して堅牢であるが,専門領域の専門化が必要であり,乱数分割によるLMアンサンブルはうまく動作しないことがわかった。
また、BTMを64個の領域(合計192Bのホワイトスペース分離トークン)に拡張し、その結果のLM(22.4Bの総パラメータ)と2.5倍の計算量でトレーニングされたTransformer LMを実行する。
これらの向上はドメイン数の増加とともに増大し、将来の作業においてより大きなモデルを効率的にトレーニングするために、より積極的な並列処理が使用されることを示唆する。
関連論文リスト
- Exploiting Domain-Specific Parallel Data on Multilingual Language Models for Low-resource Language Translation [0.6467856992131628]
ドメイン固有NMTモデル構築における補助領域からの並列データの有効性を評価する。
NMTモデルの性能に対する領域分散の影響について検討する。
ドメイン固有NMTモデルの構築において補助並列データを利用するためのいくつかの戦略を推奨する。
論文 参考訳(メタデータ) (2024-12-27T08:25:52Z) - Improving the Ability of Pre-trained Language Model by Imparting Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。
WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。
Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文 参考訳(メタデータ) (2024-08-06T10:46:46Z) - SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。
既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文 参考訳(メタデータ) (2024-07-11T05:38:15Z) - Simple and Scalable Strategies to Continually Pre-train Large Language Models [20.643648785602462]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。
学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文 参考訳(メタデータ) (2024-03-13T17:58:57Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Parallelizing Legendre Memory Unit Training [5.076419064097734]
新しいリカレントニューラルネットワーク(RNN)であるLegendre Memory Unit(LMU)が提案され、いくつかのベンチマークデータセットで最先端のパフォーマンスを実現することが示されている。
ここでは、LMUの線形時間不変(LTI)メモリコンポーネントを活用して、トレーニング中に並列化可能な簡易な変種を構築する。
並列化を支援するこの変換は、リカレントコンポーネントが線形であるディープネットワークに一般的に適用できるため、最大200倍の高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2021-02-22T23:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。