論文の概要: Soup-of-Experts: Pretraining Specialist Models via Parameters Averaging
- arxiv url: http://arxiv.org/abs/2502.01804v1
- Date: Mon, 03 Feb 2025 20:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:40.559764
- Title: Soup-of-Experts: Pretraining Specialist Models via Parameters Averaging
- Title(参考訳): Soup-of-Experts:パラメータ平均化によるスペシャリストモデルの事前学習
- Authors: Pierre Ablin, Angelos Katharopoulos, Skyler Seto, David Grangier,
- Abstract要約: Soup-of-Expertsは、最小の計算コストでテスト時にモデルをインスタンス化できます。
提案手法は,複数の言語モデリングタスクにおいて,小さな特化モデルを迅速に獲得する方法を実証する。
- 参考スコア(独自算出の注目度): 23.44999968321367
- License:
- Abstract: Machine learning models are routinely trained on a mixture of different data domains. Different domain weights yield very different downstream performances. We propose the Soup-of-Experts, a novel architecture that can instantiate a model at test time for any domain weights with minimal computational cost and without re-training the model. Our architecture consists of a bank of expert parameters, which are linearly combined to instantiate one model. We learn the linear combination coefficients as a function of the input domain weights. To train this architecture, we sample random domain weights, instantiate the corresponding model, and backprop through one batch of data sampled with these domain weights. We demonstrate how our approach obtains small specialized models on several language modeling tasks quickly. Soup-of-Experts are particularly appealing when one needs to ship many different specialist models quickly under a model size constraint.
- Abstract(参考訳): 機械学習モデルは、異なるデータドメインの混合に基づいて定期的に訓練される。
異なるドメイン重みは、ダウンストリームのパフォーマンスを非常に異なるものにします。
本稿では,最小の計算コストでテスト時にモデルをインスタンス化できる新しいアーキテクチャであるSoup-of-Expertsを提案する。
私たちのアーキテクチャは、1つのモデルをインスタンス化するために線形に結合された、専門家パラメータのバンクで構成されています。
入力領域重みの関数として線形結合係数を学習する。
このアーキテクチャをトレーニングするために、ランダムなドメイン重みをサンプリングし、対応するモデルをインスタンス化し、これらのドメイン重みでサンプリングされた1バッチのデータを通してバックプロップします。
提案手法は,複数の言語モデリングタスクにおいて,小さな特化モデルを迅速に獲得する方法を実証する。
モデルサイズの制約の下で、多くの異なるスペシャリストモデルを素早く出荷する必要がある場合、Sup-of-Expertsは特に魅力的です。
関連論文リスト
- Learning on Model Weights using Tree Experts [39.90685550999956]
入力として他のネットワークを使用するニューラルネットワークのトレーニング方法を示す。
ProbeXは、単一のモデル層の重みから学ぶために特別に設計された最初のプローブ手法である。
本稿では,モデルのトレーニングデータセットのカテゴリを重みのみに基づいて予測することで,ProbeXの有効性を示す。
論文 参考訳(メタデータ) (2024-10-17T17:17:09Z) - Cross-Domain Content Generation with Domain-Specific Small Language Models [3.2772349789781616]
そこで本研究では,2つのドメインに対して,コーヒーレントかつ関連する出力を生成するための小言語モデルを提案する。
それぞれのデータセットに合わせてカスタマイズされたカスタムトークン化ツールを利用することで、生成品質が大幅に向上することがわかった。
凍結層による知識拡張は,小言語モデルがドメイン固有のコンテンツを生成するのに有効な方法であることを示す。
論文 参考訳(メタデータ) (2024-09-19T21:45:13Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Heterogeneous Federated Learning Using Knowledge Codistillation [23.895665011884102]
本稿では、プール全体における小さなモデルと、より高いキャパシティを持つクライアントのサブセットにおけるより大きなモデルをトレーニングする手法を提案する。
モデルは、パラメータを共有することなく、サーバ上のラベルなしデータセットを利用して、知識蒸留を介して情報を双方向に交換する。
論文 参考訳(メタデータ) (2023-10-04T03:17:26Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。