論文の概要: Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language
Models
- arxiv url: http://arxiv.org/abs/2208.03306v1
- Date: Fri, 5 Aug 2022 17:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:30:55.749988
- Title: Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language
Models
- Title(参考訳): Branch-Train-Merge: エキスパート言語モデルの恥ずかしい並列トレーニング
- Authors: Margaret Li, Suchin Gururangan, Tim Dettmers, Mike Lewis, Tim Althoff,
Noah A. Smith, Luke Zettlemoyer
- Abstract要約: Branch-Train-Merge (BTM) は、大規模言語モデル(LLM)の並列トレーニングのための効率的なアルゴリズムである。
BTMは独立した専門家のLM(ELM)の集合を学習し、それぞれ異なるテキストドメインに特化している。
実験により、BTMはGPTスタイルのトランスフォーマーLMと比較して、ドメイン内および外部のパープレクティビティを改善することが示された。
- 参考スコア(独自算出の注目度): 106.65127123304842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Branch-Train-Merge (BTM), a communication-efficient algorithm for
embarrassingly parallel training of large language models (LLMs). We show it is
possible to independently train subparts of a new class of LLMs on different
subsets of the data, eliminating the massive multi-node synchronization
currently required to train LLMs. BTM learns a set of independent expert LMs
(ELMs), each specialized to a different textual domain, such as scientific or
legal text. These ELMs can be added and removed to update data coverage,
ensembled to generalize to new domains, or averaged to collapse back to a
single LM for efficient inference. New ELMs are learned by branching from
(mixtures of) ELMs in the current set, further training the parameters on data
for the new domain, and then merging the resulting model back into the set for
future use. Experiments show that BTM improves in- and out-of-domain
perplexities as compared to GPT-style Transformer LMs, when controlling for
training cost. Through extensive analysis, we show that these results are
robust to different ELM initialization schemes, but require expert domain
specialization; LM ensembles with random data splits do not perform well. We
also present a study of scaling BTM into a new corpus of 64 domains (192B
whitespace-separated tokens in total); the resulting LM (22.4B total
parameters) performs as well as a Transformer LM trained with 2.5 times more
compute. These gains grow with the number of domains, suggesting more
aggressive parallelism could be used to efficiently train larger models in
future work.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の並列学習を恥ずかしく行う通信効率のアルゴリズムであるブランチ・トレイン・マージ(BTM)を提案する。
我々は、データの異なるサブセット上で、新しいクラスのllmのサブパーツを独立にトレーニングすることができ、現在llmのトレーニングに必要な大量のマルチノード同期を排除できることを示す。
BTMは独立した専門家のLM(ELM)の集合を学び、それぞれが科学や法的なテキストなど、異なるテキスト領域に特化している。
これらのelmは、データカバレッジを更新するために追加および削除したり、新しいドメインに一般化したり、効率的な推論のために平均して単一のlmに戻したりできる。
新しいelmは、現在のセットのelm(mixtures of)から分岐し、新しいドメインのデータでさらにパラメータをトレーニングし、その結果のモデルをセットにマージして、将来の使用のために学習される。
実験により、BTMはトレーニングコストの制御において、GPTスタイルのトランスフォーマーLMに比べて、ドメイン内および外部の難易度が向上することが示された。
広範分析により,これらの結果は異なるEMM初期化方式に対して堅牢であるが,専門領域の専門化が必要であり,乱数分割によるLMアンサンブルはうまく動作しないことがわかった。
また、BTMを64個の領域(合計192Bのホワイトスペース分離トークン)に拡張し、その結果のLM(22.4Bの総パラメータ)と2.5倍の計算量でトレーニングされたTransformer LMを実行する。
これらの向上はドメイン数の増加とともに増大し、将来の作業においてより大きなモデルを効率的にトレーニングするために、より積極的な並列処理が使用されることを示唆する。
関連論文リスト
- Simple and Scalable Strategies to Continually Pre-train Large Language
Models [20.944787280773088]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。
学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文 参考訳(メタデータ) (2024-03-13T17:58:57Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation
in ultra low-data regimes [62.94611066903098]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Entity Matching using Large Language Models [4.94950858749529]
最先端のエンティティマッチング手法は、BERTやRoBERTaのような事前訓練された言語モデル(PLM)に依存している。
エンティティマッチングにおけるこれらのモデルの2つの大きな欠点は、(i)モデルがタスク固有のトレーニングデータを必要とすることと、(ii)微調整されたモデルが、アウト・オブ・ディストリビューション・エンティティに関して堅牢でないことである。
PLMベースのマーカに代えて,よりタスク依存の訓練データとして,生成的大規模言語モデル(LLM)をエンティティマッチングに使用することを検討する。
論文 参考訳(メタデータ) (2023-10-17T13:12:32Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - Translation Transformers Rediscover Inherent Data Domains [0.0]
NMT変換器が学習した文表現を分析し,テキスト領域の情報を明示的に含んでいることを示す。
この内部情報は、その下にあるドメインの文を、監督なしでクラスタリングするのに十分であることを示す。
NMTモデルは、事前訓練された言語モデル(LM)と比較して、実際のドメインに整合したクラスタを生成することを示す。
論文 参考訳(メタデータ) (2021-09-16T10:58:13Z) - Parallelizing Legendre Memory Unit Training [5.076419064097734]
新しいリカレントニューラルネットワーク(RNN)であるLegendre Memory Unit(LMU)が提案され、いくつかのベンチマークデータセットで最先端のパフォーマンスを実現することが示されている。
ここでは、LMUの線形時間不変(LTI)メモリコンポーネントを活用して、トレーニング中に並列化可能な簡易な変種を構築する。
並列化を支援するこの変換は、リカレントコンポーネントが線形であるディープネットワークに一般的に適用できるため、最大200倍の高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2021-02-22T23:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。