論文の概要: DSelect-k: Differentiable Selection in the Mixture of Experts with
Applications to Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2106.03760v2
- Date: Wed, 9 Jun 2021 15:25:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 10:50:08.833803
- Title: DSelect-k: Differentiable Selection in the Mixture of Experts with
Applications to Multi-Task Learning
- Title(参考訳): DSelect-k:マルチタスク学習への応用とエキスパートの混合における微分可能選択
- Authors: Hussein Hazimeh, Zhe Zhao, Aakanksha Chowdhery, Maheswaran
Sathiamoorthy, Yihua Chen, Rahul Mazumder, Lichan Hong, Ed H. Chi
- Abstract要約: 最先端のMoEモデルは、トレーニング可能なスパースゲートを使用して、入力例ごとに専門家のサブセットを選択する。
DSelect-kは、新しいバイナリエンコーディングの定式化に基づいて、MoEのための最初の、連続的な差別化可能かつスパースゲートである。
DSelect-kに基づくMoEモデルは,予測および専門家の選択性能において統計的に有意な改善を達成できることを示す。
- 参考スコア(独自算出の注目度): 17.012443240520625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture-of-experts (MoE) architecture is showing promising results in
multi-task learning (MTL) and in scaling high-capacity neural networks.
State-of-the-art MoE models use a trainable sparse gate to select a subset of
the experts for each input example. While conceptually appealing, existing
sparse gates, such as Top-k, are not smooth. The lack of smoothness can lead to
convergence and statistical performance issues when training with
gradient-based methods. In this paper, we develop DSelect-k: the first,
continuously differentiable and sparse gate for MoE, based on a novel binary
encoding formulation. Our gate can be trained using first-order methods, such
as stochastic gradient descent, and offers explicit control over the number of
experts to select. We demonstrate the effectiveness of DSelect-k in the context
of MTL, on both synthetic and real datasets with up to 128 tasks. Our
experiments indicate that MoE models based on DSelect-k can achieve
statistically significant improvements in predictive and expert selection
performance. Notably, on a real-world large-scale recommender system, DSelect-k
achieves over 22% average improvement in predictive performance compared to the
Top-k gate. We provide an open-source TensorFlow implementation of our gate.
- Abstract(参考訳): Mixture-of-experts(MoE)アーキテクチャは、マルチタスク学習(MTL)と高容量ニューラルネットワークのスケーリングにおいて、有望な結果を示している。
最先端のMoEモデルはトレーニング可能なスパースゲートを使用して、入力例ごとに専門家のサブセットを選択する。
概念上は魅力的だが、Top-kのような既存のスパースゲートは滑らかではない。
滑らかさの欠如は、勾配に基づく手法で訓練する際の収束と統計的性能の問題を引き起こす。
本稿では,新しい2進符号化法に基づいて,moe に対する最初の連続的微分可能かつスパースゲート dselect-k を開発した。
我々のゲートは確率勾配降下のような一階法で訓練でき、選択する専門家の数を明示的に制御できる。
最大128タスクの合成データセットと実データの両方において,MDLの文脈におけるDSelect-kの有効性を示す。
DSelect-kに基づくMoEモデルは,予測および専門家の選択性能において統計的に有意な改善を達成できることを示す。
特に、現実世界の大規模レコメンデータシステムでは、DSelect-kはTop-kゲートと比較して予測性能が平均22%向上している。
ゲートのTensorFlow実装をオープンソースで提供しています。
関連論文リスト
- Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Cramer Type Distances for Learning Gaussian Mixture Models by Gradient
Descent [0.0]
今日まで、ガウス混合モデルに適合または学習できる既知のアルゴリズムはほとんどない。
一般多変量GMM学習のためのスライスクラマー2距離関数を提案する。
これらの機能は、分散強化学習とディープQネットワークに特に有用である。
論文 参考訳(メタデータ) (2023-07-13T13:43:02Z) - COMET: Learning Cardinality Constrained Mixture of Experts with Trees
and Local Search [10.003251119927222]
Mixture-of-Experts (Sparse-MoE)フレームワークは、さまざまなドメインのモデルキャパシティを効率的にスケールアップする。
既存のスパースゲートは、一階最適化法で訓練する際、収束と性能の問題を生じやすい。
本稿では,新しい木構造に依存した新しいスパースゲートCOMETを提案する。
論文 参考訳(メタデータ) (2023-06-05T12:21:42Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - RoMA: Robust Model Adaptation for Offline Model-based Optimization [115.02677045518692]
入力出力クエリの静的データセットからブラックボックス目的関数を最大化する入力を探索する問題を考える。
この問題を解決するための一般的なアプローチは、真の客観的関数を近似するプロキシモデルを維持することである。
ここでの大きな課題は、検索中に逆最適化された入力を避ける方法である。
論文 参考訳(メタデータ) (2021-10-27T05:37:12Z) - Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T02:47:40Z) - Stepwise Model Selection for Sequence Prediction via Deep Kernel
Learning [100.83444258562263]
本稿では,モデル選択の課題を解決するために,新しいベイズ最適化(BO)アルゴリズムを提案する。
結果として得られる複数のブラックボックス関数の最適化問題を協調的かつ効率的に解くために,ブラックボックス関数間の潜在的な相関を利用する。
我々は、シーケンス予測のための段階的モデル選択(SMS)の問題を初めて定式化し、この目的のために効率的な共同学習アルゴリズムを設計し、実証する。
論文 参考訳(メタデータ) (2020-01-12T09:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。