論文の概要: Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with
Architecture-Routed Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2306.04845v1
- Date: Thu, 8 Jun 2023 00:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 17:04:52.114496
- Title: Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with
Architecture-Routed Mixture-of-Experts
- Title(参考訳): mix-of-supernets:architecture-routed mixed-of-expertsによるウェイトシェアリングスーパーネットトレーニングの改善
- Authors: Ganesh Jawahar, Haichuan Yang, Yunyang Xiong, Zechun Liu, Dilin Wang,
Fei Sun, Meng Li, Aasish Pappu, Barlas Oguz, Muhammad Abdul-Mageed, Laks V.
S. Lakshmanan, Raghuraman Krishnamoorthi, Vikas Chandra
- Abstract要約: そこで我々は,スーパーネットモデルの表現力を高めるために,Mix of-experts (MoE) を採用する。
既存のNLP用重み共有スーパーネットと比較して、トレーニング時間を最小限に抑え、トレーニング効率を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 52.71174872516908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight-sharing supernet has become a vital component for performance
estimation in the state-of-the-art (SOTA) neural architecture search (NAS)
frameworks. Although supernet can directly generate different subnetworks
without retraining, there is no guarantee for the quality of these subnetworks
because of weight sharing. In NLP tasks such as machine translation and
pre-trained language modeling, we observe that given the same model
architecture, there is a large performance gap between supernet and training
from scratch. Hence, supernet cannot be directly used and retraining is
necessary after finding the optimal architectures.
In this work, we propose mixture-of-supernets, a generalized supernet
formulation where mixture-of-experts (MoE) is adopted to enhance the expressive
power of the supernet model, with negligible training overhead. In this way,
different subnetworks do not share the model weights directly, but through an
architecture-based routing mechanism. As a result, model weights of different
subnetworks are customized towards their specific architectures and the weight
generation is learned by gradient descent. Compared to existing weight-sharing
supernet for NLP, our method can minimize the retraining time, greatly
improving training efficiency. In addition, the proposed method achieves the
SOTA performance in NAS for building fast machine translation models, yielding
better latency-BLEU tradeoff compared to HAT, state-of-the-art NAS for MT. We
also achieve the SOTA performance in NAS for building memory-efficient
task-agnostic BERT models, outperforming NAS-BERT and AutoDistil in various
model sizes.
- Abstract(参考訳): 重み共有スーパーネットは、最先端(SOTA)ニューラルアーキテクチャサーチ(NAS)フレームワークのパフォーマンス推定において重要なコンポーネントとなっている。
supernetは再トレーニングすることなく、異なるサブネットワークを生成できるが、重み共有のため、これらのサブネットワークの品質保証はない。
機械翻訳や事前学習言語モデリングなどのNLPタスクでは、同じモデルアーキテクチャが与えられた場合、スーパーネットとスクラッチからのトレーニングの間に大きなパフォーマンスギャップがあることが観察される。
したがって、スーパーネットを直接使用することはできず、最適なアーキテクチャを見つけるために再トレーニングが必要となる。
本研究では,スーパーネットモデルの表現力を高めるためにmoe(mixed-of-experts)を採用する汎用スーパーネットであるmixed-of-supernetsを提案する。
このように、異なるサブネットワークはモデル重みを直接共有するのではなく、アーキテクチャベースのルーティングメカニズムを介して共有する。
その結果、異なるサブネットワークのモデルウェイトをそれぞれのアーキテクチャに合わせてカスタマイズし、勾配降下によりウェイト生成を学習する。
既存のnlp用ウェイトシェアリングスーパーネットと比較して,リトレーニング時間を最小限に抑えることができ,トレーニング効率を大幅に向上できる。
さらに,提案手法は,高速機械翻訳モデル構築のためのNASにおいて,高速機械翻訳モデル構築のためのSOTA性能を実現し,HATと比較して遅延-BLEUトレードオフが向上し,MTのための最先端NAS,メモリ効率の高いタスク非依存BERTモデル構築のためのNASにおけるSOTA性能も達成し,NAS-BERTとAutoDistilを様々なモデルサイズで向上させる。
関連論文リスト
- Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression
For On-device ASR Models [30.758876520227666]
TODMは、ハードウェアフレンドリーなオンデバイスASRモデルの多くのサイズを、単一のトレーニングジョブと同等のGPU時間で効率的にトレーニングするための、新しいアプローチである。
我々は,TODMスーパーネットの結果を改善するために,新しい3つの手法の組み合わせを導入する。
結果から,TODMスーパーネットは単語誤り率(WER)において,最大3%の精度で手動調整モデルの性能に適合するか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-05T04:47:55Z) - Neural Architecture Search for Improving Latency-Accuracy Trade-off in
Split Computing [5.516431145236317]
スプリットコンピューティングは、IoTシステムにディープラーニングをデプロイする際のプライバシとレイテンシの問題に対処する、新たな機械学習推論技術である。
スプリットコンピューティングでは、ニューラルネットワークモデルは、エッジサーバとIoTデバイスをネットワークを介して分離し、協調的に処理される。
本稿ではスプリットコンピューティングのためのニューラルアーキテクチャサーチ(NAS)手法を提案する。
論文 参考訳(メタデータ) (2022-08-30T03:15:43Z) - NASRec: Weight Sharing Neural Architecture Search for Recommender
Systems [40.54254555949057]
NASRecは,1つのスーパーネットをトレーニングし,重量共有により豊富なモデル/サブアーキテクチャを効率的に生成するパラダイムである。
CTR(Click-Through Rates)の3つの予測ベンチマークの結果,NASRecは手動設計モデルと既存のNAS手法の両方より優れていることが示された。
論文 参考訳(メタデータ) (2022-07-14T20:15:11Z) - FlowNAS: Neural Architecture Search for Optical Flow Estimation [65.44079917247369]
本研究では,フロー推定タスクにおいて,より優れたエンコーダアーキテクチャを自動で見つけるために,FlowNASというニューラルアーキテクチャ探索手法を提案する。
実験の結果、スーパーネットワークから受け継いだ重み付きアーキテクチャは、KITTI上で4.67%のF1-allエラーを達成していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T09:05:25Z) - Supernet Training for Federated Image Classification under System
Heterogeneity [15.2292571922932]
本研究では,2つのシナリオ,すなわちフェデレーション・オブ・スーパーネット・トレーニング(FedSup)を考えるための新しい枠組みを提案する。
フェデレートラーニング(FL)のモデルアグリゲーション段階でのパラメータの平均化は、スーパーネットトレーニングにおけるウェイトシェアリングとどのように似ているかに着想を得ている。
本フレームワークでは,通信コストの削減とトレーニングオーバーヘッドの低減のために,放送段階のクライアントにサブモデルを送信することで,効率的なアルゴリズム(E-FedSup)を提案する。
論文 参考訳(メタデータ) (2022-06-03T02:21:01Z) - Enabling NAS with Automated Super-Network Generation [60.72821429802335]
最近のニューラルアーキテクチャサーチ(NAS)ソリューションは、スーパーネットワークをトレーニングし、それから導出作業を行うという印象的な結果を生み出している。
本稿では,NAS用スーパーネットワークの自動生成のためのソフトウェアフレームワークであるBootstrapNASを紹介する。
論文 参考訳(メタデータ) (2021-12-20T21:45:48Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - AlphaNet: Improved Training of Supernet with Alpha-Divergence [28.171262066145616]
より汎用的なアルファダイバージェンスでスーパーネットトレーニングを改善することを提案する。
提案するアルファディバージェンスに基づくスーパーネットトレーニングを,スリムブルニューラルネットワークと重み共有NASの両方に適用する。
特に、発見されたモデルファミリーであるAlphaNetは、幅広いFLOPシステムにおいて、先行技術モデルよりも優れています。
論文 参考訳(メタデータ) (2021-02-16T04:23:55Z) - BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage
Models [59.95091850331499]
予測精度を高めるためには,重みの処理後処理が必要であるという従来の知恵に挑戦するアプローチであるBigNASを提案する。
発見されたモデルファミリーであるBigNASModelsは76.5%から80.9%の範囲でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2020-03-24T23:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。