論文の概要: Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with
Architecture-Routed Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2306.04845v1
- Date: Thu, 8 Jun 2023 00:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 17:04:52.114496
- Title: Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with
Architecture-Routed Mixture-of-Experts
- Title(参考訳): mix-of-supernets:architecture-routed mixed-of-expertsによるウェイトシェアリングスーパーネットトレーニングの改善
- Authors: Ganesh Jawahar, Haichuan Yang, Yunyang Xiong, Zechun Liu, Dilin Wang,
Fei Sun, Meng Li, Aasish Pappu, Barlas Oguz, Muhammad Abdul-Mageed, Laks V.
S. Lakshmanan, Raghuraman Krishnamoorthi, Vikas Chandra
- Abstract要約: そこで我々は,スーパーネットモデルの表現力を高めるために,Mix of-experts (MoE) を採用する。
既存のNLP用重み共有スーパーネットと比較して、トレーニング時間を最小限に抑え、トレーニング効率を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 52.71174872516908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight-sharing supernet has become a vital component for performance
estimation in the state-of-the-art (SOTA) neural architecture search (NAS)
frameworks. Although supernet can directly generate different subnetworks
without retraining, there is no guarantee for the quality of these subnetworks
because of weight sharing. In NLP tasks such as machine translation and
pre-trained language modeling, we observe that given the same model
architecture, there is a large performance gap between supernet and training
from scratch. Hence, supernet cannot be directly used and retraining is
necessary after finding the optimal architectures.
In this work, we propose mixture-of-supernets, a generalized supernet
formulation where mixture-of-experts (MoE) is adopted to enhance the expressive
power of the supernet model, with negligible training overhead. In this way,
different subnetworks do not share the model weights directly, but through an
architecture-based routing mechanism. As a result, model weights of different
subnetworks are customized towards their specific architectures and the weight
generation is learned by gradient descent. Compared to existing weight-sharing
supernet for NLP, our method can minimize the retraining time, greatly
improving training efficiency. In addition, the proposed method achieves the
SOTA performance in NAS for building fast machine translation models, yielding
better latency-BLEU tradeoff compared to HAT, state-of-the-art NAS for MT. We
also achieve the SOTA performance in NAS for building memory-efficient
task-agnostic BERT models, outperforming NAS-BERT and AutoDistil in various
model sizes.
- Abstract(参考訳): 重み共有スーパーネットは、最先端(SOTA)ニューラルアーキテクチャサーチ(NAS)フレームワークのパフォーマンス推定において重要なコンポーネントとなっている。
supernetは再トレーニングすることなく、異なるサブネットワークを生成できるが、重み共有のため、これらのサブネットワークの品質保証はない。
機械翻訳や事前学習言語モデリングなどのNLPタスクでは、同じモデルアーキテクチャが与えられた場合、スーパーネットとスクラッチからのトレーニングの間に大きなパフォーマンスギャップがあることが観察される。
したがって、スーパーネットを直接使用することはできず、最適なアーキテクチャを見つけるために再トレーニングが必要となる。
本研究では,スーパーネットモデルの表現力を高めるためにmoe(mixed-of-experts)を採用する汎用スーパーネットであるmixed-of-supernetsを提案する。
このように、異なるサブネットワークはモデル重みを直接共有するのではなく、アーキテクチャベースのルーティングメカニズムを介して共有する。
その結果、異なるサブネットワークのモデルウェイトをそれぞれのアーキテクチャに合わせてカスタマイズし、勾配降下によりウェイト生成を学習する。
既存のnlp用ウェイトシェアリングスーパーネットと比較して,リトレーニング時間を最小限に抑えることができ,トレーニング効率を大幅に向上できる。
さらに,提案手法は,高速機械翻訳モデル構築のためのNASにおいて,高速機械翻訳モデル構築のためのSOTA性能を実現し,HATと比較して遅延-BLEUトレードオフが向上し,MTのための最先端NAS,メモリ効率の高いタスク非依存BERTモデル構築のためのNASにおけるSOTA性能も達成し,NAS-BERTとAutoDistilを様々なモデルサイズで向上させる。
関連論文リスト
- TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression
For On-device ASR Models [30.758876520227666]
TODMは、ハードウェアフレンドリーなオンデバイスASRモデルの多くのサイズを、単一のトレーニングジョブと同等のGPU時間で効率的にトレーニングするための、新しいアプローチである。
我々は,TODMスーパーネットの結果を改善するために,新しい3つの手法の組み合わせを導入する。
結果から,TODMスーパーネットは単語誤り率(WER)において,最大3%の精度で手動調整モデルの性能に適合するか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-05T04:47:55Z) - NASRec: Weight Sharing Neural Architecture Search for Recommender
Systems [40.54254555949057]
NASRecは,1つのスーパーネットをトレーニングし,重量共有により豊富なモデル/サブアーキテクチャを効率的に生成するパラダイムである。
CTR(Click-Through Rates)の3つの予測ベンチマークの結果,NASRecは手動設計モデルと既存のNAS手法の両方より優れていることが示された。
論文 参考訳(メタデータ) (2022-07-14T20:15:11Z) - Supernet Training for Federated Image Classification under System
Heterogeneity [15.2292571922932]
本研究では,2つのシナリオ,すなわちフェデレーション・オブ・スーパーネット・トレーニング(FedSup)を考えるための新しい枠組みを提案する。
フェデレートラーニング(FL)のモデルアグリゲーション段階でのパラメータの平均化は、スーパーネットトレーニングにおけるウェイトシェアリングとどのように似ているかに着想を得ている。
本フレームワークでは,通信コストの削減とトレーニングオーバーヘッドの低減のために,放送段階のクライアントにサブモデルを送信することで,効率的なアルゴリズム(E-FedSup)を提案する。
論文 参考訳(メタデータ) (2022-06-03T02:21:01Z) - Evolutionary Neural Cascade Search across Supernetworks [68.8204255655161]
ENCAS - Evolutionary Neural Cascade Searchを紹介する。
ENCASは、複数の事前訓練されたスーパーネットを探索するために使用することができる。
我々は、一般的なコンピュータビジョンベンチマークでEMCASをテストする。
論文 参考訳(メタデータ) (2022-03-08T11:06:01Z) - Enabling NAS with Automated Super-Network Generation [60.72821429802335]
最近のニューラルアーキテクチャサーチ(NAS)ソリューションは、スーパーネットワークをトレーニングし、それから導出作業を行うという印象的な結果を生み出している。
本稿では,NAS用スーパーネットワークの自動生成のためのソフトウェアフレームワークであるBootstrapNASを紹介する。
論文 参考訳(メタデータ) (2021-12-20T21:45:48Z) - An Analysis of Super-Net Heuristics in Weight-Sharing NAS [70.57382341642418]
単純なランダム探索は,スーパーネットを適切に訓練した場合に,複雑なNASアルゴリズムと競合する性能が得られることを示す。
単純なランダム探索は,スーパーネットを適切に訓練した場合に,複雑なNASアルゴリズムと競合する性能が得られることを示す。
論文 参考訳(メタデータ) (2021-10-04T02:18:44Z) - AlphaNet: Improved Training of Supernet with Alpha-Divergence [28.171262066145616]
より汎用的なアルファダイバージェンスでスーパーネットトレーニングを改善することを提案する。
提案するアルファディバージェンスに基づくスーパーネットトレーニングを,スリムブルニューラルネットワークと重み共有NASの両方に適用する。
特に、発見されたモデルファミリーであるAlphaNetは、幅広いFLOPシステムにおいて、先行技術モデルよりも優れています。
論文 参考訳(メタデータ) (2021-02-16T04:23:55Z) - BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage
Models [59.95091850331499]
予測精度を高めるためには,重みの処理後処理が必要であるという従来の知恵に挑戦するアプローチであるBigNASを提案する。
発見されたモデルファミリーであるBigNASModelsは76.5%から80.9%の範囲でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2020-03-24T23:00:49Z) - How to Train Your Super-Net: An Analysis of Training Heuristics in
Weight-Sharing NAS [64.50415611717057]
我々は,スーパーネットトレーニングにおける一般的なベースラインが,スーパーネットとスタンドアローンのパフォーマンスの相関に負の影響を及ぼすことを示した。
私たちのコードと実験は、将来の作業が構築できる、強く再現可能なベースラインを設定しました。
論文 参考訳(メタデータ) (2020-03-09T17:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。