Fugu-MT 論文翻訳(概要): Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

論文の概要: Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

arxiv url: http://arxiv.org/abs/2403.07816v1
Date: Tue, 12 Mar 2024 16:54:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 20:31:04.302461
Title: Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM
Title（参考訳）: Branch-Train-MiX: エキスパートLSMを試験LSMに混合する
Authors: Sainbayar Sukhbaatar, Olga Golovneva, Vasu Sharma, Hu Xu, Xi Victoria Lin, Baptiste Rozi\`ere, Jacob Kahn, Daniel Li, Wen-tau Yih, Jason Weston, Xian Li
Abstract要約: 大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。 BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
参考スコア（独自算出の注目度）: 81.18305296110853
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate efficient methods for training Large Language Models (LLMs) to possess capabilities in multiple specialized domains, such as coding, math reasoning and world knowledge. Our method, named Branch-Train-MiX (BTX), starts from a seed model, which is branched to train experts in embarrassingly parallel fashion with high throughput and reduced communication cost. After individual experts are asynchronously trained, BTX brings together their feedforward parameters as experts in Mixture-of-Expert (MoE) layers and averages the remaining parameters, followed by an MoE-finetuning stage to learn token-level routing. BTX generalizes two special cases, the Branch-Train-Merge method, which does not have the MoE finetuning stage to learn routing, and sparse upcycling, which omits the stage of training experts asynchronously. Compared to alternative approaches, BTX achieves the best accuracy-efficiency tradeoff.
Abstract（参考訳）: 符号化,数学推論,世界知識など,複数の専門分野の能力を有する大規模言語モデル(LLM)を学習するための効率的な手法について検討する。提案手法はbtx(branch-train-mix)と呼ばれるシードモデルから始まり,高いスループットと通信コストの低減により,恥ずかしいほど並列的に専門家を訓練する。個々の専門家が非同期でトレーニングされた後、BTXはMixture-of-Expert(MoE)層の専門家としてフィードフォワードパラメータをまとめ、残りのパラメータを平均化し、トークンレベルのルーティングを学ぶためのMoEファインタニングステージが続く。 btxは、ルーティングを学ぶためのmoe微調整段階を持たない分岐列車メルジ法と、非同期に訓練専門家のステージを省略するスパースアップサイクリング法という2つの特別なケースを一般化している。 BTXは代替手法と比較して、最良の精度と効率のトレードオフを実現する。

関連論文リスト

Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。我々は,Sybolic-MoEのインスタンスレベルのエキスパート選択により,大きなマージンで性能が向上することを示した。
論文参考訳（メタデータ） (2025-03-07T18:03:13Z)
BTS: Harmonizing Specialized Experts into a Generalist LLM [52.026293450944635]
Branch-Train-Stitch (BTS) は、独立に訓練された大規模言語モデル(LLM)の専門家を単一の有能なジェネラリストモデルに統合するための効率的なトレーニングアルゴリズムである。代替モデルのマージアプローチと比較すると、BTSは様々な下流タスクにおいて最高の一般化性能を得る。
論文参考訳（メタデータ） (2025-01-31T07:54:34Z)
Ada-K Routing: Boosting the Efficiency of MoE-based LLMs [6.954735360168147]
トークンごとにアクティベートされた専門家の数を動的に調整する新しいAda-Kルーティング戦略を提案する。我々の戦略は学習可能で軽量なアロケータモジュールを組み込んでおり、各トークンのコンテキストに応じたカスタマイズされた専門家リソース割り当てを決定する。
論文参考訳（メタデータ） (2024-10-14T12:50:04Z)
Upcycling Instruction Tuning from Dense to Mixture-of-Experts via Parameter Merging [36.0133566024214]
Upcycling Instruction Tuning (UpIT) は、密度の高い事前学習されたモデルをMoE命令モデルにチューニングするためのデータ効率のよいアプローチである。 MoEモデルの各専門家が期待通りに機能するように、我々は、ルータを事前最適化するために、各専門家が抽出する少数のシードデータを選択する。
論文参考訳（メタデータ） (2024-10-02T14:48:22Z)
BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts [41.83123857437985]
大規模な体制でゼロからMoEを訓練することは違法に高価である。本稿では,BAM(Branch-Attend-Mix)を提案する。 5億9000万から20億のパラメータのシードモデルに関する実験では、BAMがパープレキシティとダウンストリームのタスクパフォーマンスの両方でベースラインを超えていることが示されている。
論文参考訳（メタデータ） (2024-08-15T17:19:12Z)
Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。現在のMoEモデルはパラメータ非効率をしばしば表示する。我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文参考訳（メタデータ） (2024-08-13T10:25:13Z)
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文参考訳（メタデータ） (2024-05-18T12:16:01Z)
T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。 Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文参考訳（メタデータ） (2024-04-13T12:14:58Z)
Exploiting Inter-Layer Expert Affinity for Accelerating Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文参考訳（メタデータ） (2024-01-16T14:16:47Z)
Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文参考訳（メタデータ） (2022-12-01T17:31:42Z)
Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models [106.65127123304842]
Branch-Train-Merge (BTM) は、大規模言語モデル(LLM)の並列トレーニングのための効率的なアルゴリズムである。 BTMは独立した専門家のLM(ELM)の集合を学習し、それぞれ異なるテキストドメインに特化している。実験により、BTMはGPTスタイルのトランスフォーマーLMと比較して、ドメイン内および外部のパープレクティビティを改善することが示された。
論文参考訳（メタデータ） (2022-08-05T17:46:38Z)
StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文参考訳（メタデータ） (2022-04-18T16:48:19Z)
Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。 Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文参考訳（メタデータ） (2021-10-08T17:15:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。