論文の概要: BTS: Harmonizing Specialized Experts into a Generalist LLM
- arxiv url: http://arxiv.org/abs/2502.00075v1
- Date: Fri, 31 Jan 2025 07:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:49.120435
- Title: BTS: Harmonizing Specialized Experts into a Generalist LLM
- Title(参考訳): BTS: スペシャリストのエキスパートをジェネラリストのLSMに調和させる
- Authors: Qizhen Zhang, Prajjwal Bhargava, Chloe Bi, Chris X. Cai, Jakob Foerster, Jeremy Fu, Punit Singh Koura, Ruan Silva, Sheng Shen, Emily Dinan, Suchin Gururangan, Mike Lewis,
- Abstract要約: Branch-Train-Stitch (BTS) は、独立に訓練された大規模言語モデル(LLM)の専門家を単一の有能なジェネラリストモデルに統合するための効率的なトレーニングアルゴリズムである。
代替モデルのマージアプローチと比較すると、BTSは様々な下流タスクにおいて最高の一般化性能を得る。
- 参考スコア(独自算出の注目度): 52.026293450944635
- License:
- Abstract: We present Branch-Train-Stitch (BTS), an efficient and flexible training algorithm for combining independently trained large language model (LLM) experts into a single, capable generalist model. Following Li et al., we start with a single seed language model which is branched into domain-specific (e.g., coding or math) experts with continual pretraining. BTS combines experts into a generalist model using lightweight stitch layers, which are inserted between frozen experts and the seed LLM, and trained on a small datamix of the expert domains. Stitch layers enable the seed LLM to integrate representations from any number of experts during the forward pass, allowing it to generalize to new domains, despite remaining frozen. Because BTS does not alter the constituent LLMs, BTS provides a modular and flexible approach: experts can be easily removed and new experts can be added with only a small amount of training. Compared to alternative model merging approaches, BTS yields the best generalist performance on a variety of downstream tasks, retaining the specialized capabilities of each of the experts.
- Abstract(参考訳): 独立に訓練された大規模言語モデル(LLM)の専門家を1つの有能なジェネラリストモデルに統合するための,効率的かつ柔軟なトレーニングアルゴリズムであるブランチ・トレイン・スティッチ(BTS)を提案する。
Liなどに続いて、1つのシード言語モデルから始まり、ドメイン固有の(例えば、コーディングや数学)エキスパートに分岐し、継続的な事前トレーニングを行います。
BTSは、凍結した専門家とシードLLMの間に挿入され、エキスパートドメインの小さなデータミックスでトレーニングされる、軽量なステッチレイヤーを使用して、専門家をジェネラリストモデルに結合する。
ストッチレイヤーにより、シードLLMはフォワードパス中に複数の専門家の表現を統合することができ、凍結したままでも新しいドメインに一般化することができる。
BTSは構成要素のLLMを変更しないため、BTSはモジュラーで柔軟なアプローチを提供する。
代替モデルのマージアプローチと比較すると、BTSは様々な下流タスクにおいて最高のジェネラリスト性能を示し、各専門家の特殊能力を維持している。
関連論文リスト
- LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization [61.16890890570814]
ドメイン一般化(Domain Generalization, DG)手法は、複数のソースドメインからのトレーニングデータを使用することで、目に見えないターゲットドメインにおける優れたパフォーマンスを維持することを目的としている。
この作業では、DGを改善するために、ターゲットモデルをすべてのソースドメインの専門家にすることを目的とした、複数の専門家(LFME)からの学習と呼ばれる、シンプルだが効果的なフレームワークを導入している。
論文 参考訳(メタデータ) (2024-10-22T13:44:10Z) - MoIN: Mixture of Introvert Experts to Upcycle an LLM [15.182215869841789]
本稿では,フルモデルの事前学習を継続することなく,既存の大規模言語モデルを改善することを目的とする。
このアイデアは、事前学習データを意味のあるグループに分割し、各サブセットで専門家を訓練する。
推論中、入力されたクエリは、最初に最も関連する専門家にルーティングされ、その後、フォワードパスのためにベースモデルにロードされる。
論文 参考訳(メタデータ) (2024-10-13T01:11:04Z) - An Expert is Worth One Token: Synergizing Multiple Expert LLMs as Generalist via Expert Token Routing [55.25224913110965]
Expert-Token-Routing は、メタ LLM の語彙内の特別な専門家トークンとして、専門家 LLM を表現している。
既存の命令データセットから専門家のLSMの暗黙の専門知識を学ぶのをサポートする。
また、ユーザの視点から詳細なコラボレーションプロセスを隠蔽し、独特なLLMのように対話を容易にする。
論文 参考訳(メタデータ) (2024-03-25T15:17:05Z) - Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM [81.18305296110853]
大規模言語モデル(LLM)を学習し,複数の専門分野の能力を持つための効率的な手法について検討する。
当社の手法はBブランチ・トレイン・MiX (BTX) という種モデルから始まり, 恥ずかしいほど並列な方法で専門家を訓練する。
BTXは、ルーティングを学ぶためのMoEの微調整段階を持たないブランチ・トレイン・マージ法と、エキスパートの非同期訓練を省略するスパース・アップサイクリングという2つの特殊なケースを一般化している。
論文 参考訳(メタデータ) (2024-03-12T16:54:58Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。