Fugu-MT 論文翻訳(概要): Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models

論文の概要: Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models

arxiv url: http://arxiv.org/abs/2208.03306v1
Date: Fri, 5 Aug 2022 17:46:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-08 12:30:55.749988
Title: Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models
Title（参考訳）: Branch-Train-Merge: エキスパート言語モデルの恥ずかしい並列トレーニング
Authors: Margaret Li, Suchin Gururangan, Tim Dettmers, Mike Lewis, Tim Althoff, Noah A. Smith, Luke Zettlemoyer
Abstract要約: Branch-Train-Merge (BTM) は、大規模言語モデル(LLM)の並列トレーニングのための効率的なアルゴリズムである。 BTMは独立した専門家のLM(ELM)の集合を学習し、それぞれ異なるテキストドメインに特化している。実験により、BTMはGPTスタイルのトランスフォーマーLMと比較して、ドメイン内および外部のパープレクティビティを改善することが示された。
参考スコア（独自算出の注目度）: 106.65127123304842
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Branch-Train-Merge (BTM), a communication-efficient algorithm for embarrassingly parallel training of large language models (LLMs). We show it is possible to independently train subparts of a new class of LLMs on different subsets of the data, eliminating the massive multi-node synchronization currently required to train LLMs. BTM learns a set of independent expert LMs (ELMs), each specialized to a different textual domain, such as scientific or legal text. These ELMs can be added and removed to update data coverage, ensembled to generalize to new domains, or averaged to collapse back to a single LM for efficient inference. New ELMs are learned by branching from (mixtures of) ELMs in the current set, further training the parameters on data for the new domain, and then merging the resulting model back into the set for future use. Experiments show that BTM improves in- and out-of-domain perplexities as compared to GPT-style Transformer LMs, when controlling for training cost. Through extensive analysis, we show that these results are robust to different ELM initialization schemes, but require expert domain specialization; LM ensembles with random data splits do not perform well. We also present a study of scaling BTM into a new corpus of 64 domains (192B whitespace-separated tokens in total); the resulting LM (22.4B total parameters) performs as well as a Transformer LM trained with 2.5 times more compute. These gains grow with the number of domains, suggesting more aggressive parallelism could be used to efficiently train larger models in future work.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)の並列学習を恥ずかしく行う通信効率のアルゴリズムであるブランチ・トレイン・マージ(BTM)を提案する。我々は、データの異なるサブセット上で、新しいクラスのllmのサブパーツを独立にトレーニングすることができ、現在llmのトレーニングに必要な大量のマルチノード同期を排除できることを示す。 BTMは独立した専門家のLM(ELM)の集合を学び、それぞれが科学や法的なテキストなど、異なるテキスト領域に特化している。これらのelmは、データカバレッジを更新するために追加および削除したり、新しいドメインに一般化したり、効率的な推論のために平均して単一のlmに戻したりできる。新しいelmは、現在のセットのelm(mixtures of)から分岐し、新しいドメインのデータでさらにパラメータをトレーニングし、その結果のモデルをセットにマージして、将来の使用のために学習される。実験により、BTMはトレーニングコストの制御において、GPTスタイルのトランスフォーマーLMに比べて、ドメイン内および外部の難易度が向上することが示された。広範分析により,これらの結果は異なるEMM初期化方式に対して堅牢であるが,専門領域の専門化が必要であり,乱数分割によるLMアンサンブルはうまく動作しないことがわかった。また、BTMを64個の領域(合計192Bのホワイトスペース分離トークン)に拡張し、その結果のLM(22.4Bの総パラメータ)と2.5倍の計算量でトレーニングされたTransformer LMを実行する。これらの向上はドメイン数の増加とともに増大し、将来の作業においてより大きなモデルを効率的にトレーニングするために、より積極的な並列処理が使用されることを示唆する。

関連論文リスト

Generating Diverse Training Samples for Relation Extraction with Large Language Models [30.196619805354622]
関係抽出(RE)のための大規模言語モデル(LLM)で生成されたトレーニングサンプルの多様性を効果的に改善する方法について検討する。一般的に使用されるREデータセットの実験では、両方の試みが生成されたトレーニングデータの品質を向上させることが示されている。
論文参考訳（メタデータ） (2025-05-29T05:21:54Z)
Exploiting Domain-Specific Parallel Data on Multilingual Language Models for Low-resource Language Translation [0.6467856992131628]
ドメイン固有NMTモデル構築における補助領域からの並列データの有効性を評価する。 NMTモデルの性能に対する領域分散の影響について検討する。ドメイン固有NMTモデルの構築において補助並列データを利用するためのいくつかの戦略を推奨する。
論文参考訳（メタデータ） (2024-12-27T08:25:52Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
Enhancing Discriminative Tasks by Guiding the Pre-trained Language Model with Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文参考訳（メタデータ） (2024-08-16T06:37:59Z)
Extend Model Merging from Fine-Tuned to Pre-Trained Large Language Models via Weight Disentanglement [72.97553348776425]
我々は、FTからPT LLMへのマージ技術の適用性を拡大するための先駆的な取り組みを行っている。 WeIght DisENtanglement (WIDEN) に基づくアプローチを導入し、マージ範囲を効果的に拡張する。 Qwen1.5-Chat (FT LLM with instruction-following skills) と Sailor (PT LLM with multilingual abilities) を7Bおよび14Bモデルスケールにマージする。
論文参考訳（メタデータ） (2024-08-06T10:46:46Z)
SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文参考訳（メタデータ） (2024-07-11T05:38:15Z)
CALRec: Contrastive Alignment of Generative LLMs for Sequential Recommendation [18.986613405565514]
大規模言語モデル(LLM)は、シーケンシャルなレコメンデーションのために大量のテキストコーパスで事前訓練される。本稿では,2つの対照的な損失と言語モデリング損失を混合して,事前学習したLLMを2tower方式で微調整する2段階のLLMファインタニングフレームワークを提案する。我々のモデルは、多くの最先端のベースラインを著しく上回ります。
論文参考訳（メタデータ） (2024-05-03T18:51:19Z)
Simple and Scalable Strategies to Continually Pre-train Large Language Models [20.643648785602462]
大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。学習率のリウォーミング、LR再計算、過去のデータのリプレイをシンプルかつスケーラブルに組み合わせることで、スクラッチから完全に再学習する性能に匹敵することを示す。
論文参考訳（メタデータ） (2024-03-13T17:58:57Z)
Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文参考訳（メタデータ） (2023-12-19T12:34:46Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
Parallelizing Legendre Memory Unit Training [5.076419064097734]
新しいリカレントニューラルネットワーク(RNN)であるLegendre Memory Unit(LMU)が提案され、いくつかのベンチマークデータセットで最先端のパフォーマンスを実現することが示されている。ここでは、LMUの線形時間不変(LTI)メモリコンポーネントを活用して、トレーニング中に並列化可能な簡易な変種を構築する。並列化を支援するこの変換は、リカレントコンポーネントが線形であるディープネットワークに一般的に適用できるため、最大200倍の高速なトレーニングを実現する。
論文参考訳（メタデータ） (2021-02-22T23:43:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。