論文の概要: COMET: Learning Cardinality Constrained Mixture of Experts with Trees
and Local Search
- arxiv url: http://arxiv.org/abs/2306.02824v1
- Date: Mon, 5 Jun 2023 12:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 15:22:52.608977
- Title: COMET: Learning Cardinality Constrained Mixture of Experts with Trees
and Local Search
- Title(参考訳): COMET: 木と局所探索の専門知識の心的制約を学習する
- Authors: Shibal Ibrahim, Wenyu Chen, Hussein Hazimeh, Natalia Ponomareva, Zhe
Zhao, Rahul Mazumder
- Abstract要約: Mixture-of-Experts (Sparse-MoE)フレームワークは、さまざまなドメインのモデルキャパシティを効率的にスケールアップする。
既存のスパースゲートは、一階最適化法で訓練する際、収束と性能の問題を生じやすい。
本稿では,新しい木構造に依存した新しいスパースゲートCOMETを提案する。
- 参考スコア(独自算出の注目度): 10.003251119927222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The sparse Mixture-of-Experts (Sparse-MoE) framework efficiently scales up
model capacity in various domains, such as natural language processing and
vision. Sparse-MoEs select a subset of the "experts" (thus, only a portion of
the overall network) for each input sample using a sparse, trainable gate.
Existing sparse gates are prone to convergence and performance issues when
training with first-order optimization methods. In this paper, we introduce two
improvements to current MoE approaches. First, we propose a new sparse gate:
COMET, which relies on a novel tree-based mechanism. COMET is differentiable,
can exploit sparsity to speed up computation, and outperforms state-of-the-art
gates. Second, due to the challenging combinatorial nature of sparse expert
selection, first-order methods are typically prone to low-quality solutions. To
deal with this challenge, we propose a novel, permutation-based local search
method that can complement first-order methods in training any sparse gate,
e.g., Hash routing, Top-k, DSelect-k, and COMET. We show that local search can
help networks escape bad initializations or solutions. We performed large-scale
experiments on various domains, including recommender systems, vision, and
natural language processing. On standard vision and recommender systems
benchmarks, COMET+ (COMET with local search) achieves up to 13% improvement in
ROC AUC over popular gates, e.g., Hash routing and Top-k, and up to 9% over
prior differentiable gates e.g., DSelect-k. When Top-k and Hash gates are
combined with local search, we see up to $100\times$ reduction in the budget
needed for hyperparameter tuning. Moreover, for language modeling, our approach
improves over the state-of-the-art MoEBERT model for distilling BERT on 5/7
GLUE benchmarks as well as SQuAD dataset.
- Abstract(参考訳): Sparse Mixture-of-Experts (Sparse-MoE)フレームワークは、自然言語処理やビジョンなど、さまざまな領域のモデルキャパシティを効率的にスケールアップする。
sparse-moesは、スパースで訓練可能なゲートを使用して、各入力サンプルの"experts"(ネットワーク全体の部分のみ)のサブセットを選択する。
既存のスパースゲートは、一階最適化法で訓練する際、収束と性能の問題を引き起こす。
本稿では,現在のMoE手法の2つの改良点を紹介する。
まず、新しいツリーベースのメカニズムに依存する新しいスパースゲートcometを提案する。
COMETは微分可能で、計算を高速化するためにスパーシティを利用することができ、最先端のゲートよりも優れている。
第二に、スパース専門家選択の難解な組み合わせの性質のため、一階法は典型的には低品質な解の傾向にある。
この課題に対処するために,Hashルーティング,Top-k,DSelect-k,COMETなどのスパースゲートのトレーニングにおいて,一階法を補完する新しい局所探索手法を提案する。
ローカル検索は、ネットワークが悪質な初期化や解決を逃れるのに役立つ。
我々は,推薦システム,ビジョン,自然言語処理など,様々な領域で大規模な実験を行った。
標準的なビジョンとレコメンダシステムベンチマークでは、COMET+ (COMET with local search) は、一般的なゲート(例えばHashルーティングやTop-k)よりも最大13%改善され、DSelect-kのような以前の異なるゲートよりも9%向上した。
Top-kとHashのゲートがローカル検索と組み合わせられると、ハイパーパラメータチューニングに必要な予算を最大100\times$で削減できる。
さらに,言語モデリングにおいては,5/7 GLUEベンチマークおよびSQuADデータセット上でBERTを蒸留するためのMoEBERTモデルを改良した。
関連論文リスト
- Learning To Dive In Branch And Bound [95.13209326119153]
グラフニューラルネットワークを用いて特定の潜水構造を学習するためのL2Diveを提案する。
我々は、変数の割り当てを予測するために生成モデルを訓練し、線形プログラムの双対性を利用して潜水決定を行う。
論文 参考訳(メタデータ) (2023-01-24T12:01:45Z) - Learning to Compare Nodes in Branch and Bound with Graph Neural Networks [5.08128537391027]
整数プログラミングにおける分岐とバウンドのアプローチは、次の探索のために空間の一部を順序付けする必要がある。
本稿では,この問題に対処する新たなシアムグラフニューラルネットワークモデルを提案し,ノードを属性付き二部グラフとして表現する。
本手法は,ノードがランクに応じて探索される平易なフレームワークのインスタンスを解くことで評価する。
論文 参考訳(メタデータ) (2022-10-30T19:38:23Z) - A Metaheuristic Algorithm for Large Maximum Weight Independent Set
Problems [58.348679046591265]
ノード重み付きグラフが与えられたとき、ノード重みが最大となる独立した(相互に非隣接な)ノードの集合を見つける。
このアプリケーションで放送されるグラフの中には、数十万のノードと数億のエッジを持つ大きなものもあります。
我々は,不規則なランダム化適応検索フレームワークにおいてメタヒューリスティックな新しい局所探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-03-28T21:34:16Z) - Flipping the switch on local exploration: Genetic Algorithms with
Reversals [0.0]
著者らは、勾配のない探索手法が離散領域における最適解を提供するのに適していることを示した。
また、複数のローカル検索を使用することで、ローカル検索のパフォーマンスが向上することを示した。
提案したGA変種は,提案した問題を含む全てのベンチマークにおいて,最小平均コストであり,ICが構成成分よりも優れた性能を発揮することが観察された。
論文 参考訳(メタデータ) (2022-02-02T08:27:11Z) - Enhanced Exploration in Neural Feature Selection for Deep Click-Through
Rate Prediction Models via Ensemble of Gating Layers [7.381829794276824]
神経機能選択(NFS)の目標は、最も説明力のある比較的小さな機能のサブセットを選択することである。
ゲーティングアプローチは、情報の少ない特徴をドロップするために、識別可能なバイナリゲートのセットを挿入する。
勾配に基づく解の探索能力を向上させるために,単純だが効果的なアンサンブル学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-07T04:37:05Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - DSelect-k: Differentiable Selection in the Mixture of Experts with
Applications to Multi-Task Learning [17.012443240520625]
最先端のMoEモデルは、トレーニング可能なスパースゲートを使用して、入力例ごとに専門家のサブセットを選択する。
DSelect-kは、新しいバイナリエンコーディングの定式化に基づいて、MoEのための最初の、連続的な差別化可能かつスパースゲートである。
DSelect-kに基づくMoEモデルは,予測および専門家の選択性能において統計的に有意な改善を達成できることを示す。
論文 参考訳(メタデータ) (2021-06-07T16:25:27Z) - ISTA-NAS: Efficient and Consistent Neural Architecture Search by Sparse
Coding [86.40042104698792]
スパース符号問題としてニューラルアーキテクチャ探索を定式化する。
実験では、CIFAR-10の2段階法では、検索にわずか0.05GPUしか必要としない。
本手法は,CIFAR-10とImageNetの両方において,評価時間のみのコストで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-13T04:34:24Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - GOLD-NAS: Gradual, One-Level, Differentiable [100.12492801459105]
GOLD-NAS (Gradual One-Level Differentiable Neural Architecture Search) という新しいアルゴリズムを提案する。
1レベル最適化に可変リソース制約を導入し、弱い演算子をスーパーネットワークから徐々に追い出す。
論文 参考訳(メタデータ) (2020-07-07T10:37:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。