論文の概要: Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2306.04845v2
- Date: Wed, 7 Aug 2024 20:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 21:19:13.267956
- Title: Mixture-of-Supernets: Improving Weight-Sharing Supernet Training with Architecture-Routed Mixture-of-Experts
- Title(参考訳): Mixture-of-Supernets:Architecture-Routed Mixture-of-Expertsによるウェイトシェアリング・スーパーネットトレーニングの改善
- Authors: Ganesh Jawahar, Haichuan Yang, Yunyang Xiong, Zechun Liu, Dilin Wang, Fei Sun, Meng Li, Aasish Pappu, Barlas Oguz, Muhammad Abdul-Mageed, Laks V. S. Lakshmanan, Raghuraman Krishnamoorthi, Vikas Chandra,
- Abstract要約: ウェイトシェアリングスーパーネットは、最先端のニューラルサーチフレームワークのパフォーマンス評価に不可欠である。
提案手法は,高速機械翻訳モデルのためのNASにおける最先端(SoTA)性能を実現する。
メモリ効率のよいタスク非依存のBERTモデルを構築するためにNASが優れている。
- 参考スコア(独自算出の注目度): 55.470959564665705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight-sharing supernets are crucial for performance estimation in cutting-edge neural architecture search (NAS) frameworks. Despite their ability to generate diverse subnetworks without retraining, the quality of these subnetworks is not guaranteed due to weight sharing. In NLP tasks like machine translation and pre-trained language modeling, there is a significant performance gap between supernet and training from scratch for the same model architecture, necessitating retraining post optimal architecture identification. This study introduces a solution called mixture-of-supernets, a generalized supernet formulation leveraging mixture-of-experts (MoE) to enhance supernet model expressiveness with minimal training overhead. Unlike conventional supernets, this method employs an architecture-based routing mechanism, enabling indirect sharing of model weights among subnetworks. This customization of weights for specific architectures, learned through gradient descent, minimizes retraining time, significantly enhancing training efficiency in NLP. The proposed method attains state-of-the-art (SoTA) performance in NAS for fast machine translation models, exhibiting a superior latency-BLEU tradeoff compared to HAT, the SoTA NAS framework for machine translation. Furthermore, it excels in NAS for building memory-efficient task-agnostic BERT models, surpassing NAS-BERT and AutoDistil across various model sizes. The code can be found at: https://github.com/UBC-NLP/MoS.
- Abstract(参考訳): 軽量共有スーパーネットは、最先端のニューラルネットワークサーチ(NAS)フレームワークのパフォーマンス推定に不可欠である。
様々なサブネットを再訓練せずに作成できるにもかかわらず、これらのサブネットの品質は重量共有のため保証されていない。
機械翻訳や事前訓練された言語モデリングといったNLPタスクでは、同じモデルアーキテクチャにおいて、スーパーネットとスクラッチからのトレーニングの間に大きなパフォーマンスギャップがあり、最適なアーキテクチャの識別後の再トレーニングが必要になります。
そこで本研究では,Mix-of-experts(MoE)を応用し,トレーニングオーバーヘッドを最小限に抑えたスーパーネットモデルの表現性を向上する手法であるMix-of-supernetsを提案する。
従来のスーパーネットとは異なり、この手法はアーキテクチャに基づくルーティング機構を採用しており、サブネット間でモデルの重みを間接的に共有することができる。
特定のアーキテクチャの重みのカスタマイズは、勾配勾配から学習し、再訓練時間を最小化し、NLPのトレーニング効率を大幅に向上させる。
提案手法は,高速機械翻訳モデルにおけるNASの最先端(SoTA)性能を達成し,機械翻訳のためのSOTANASフレームワークであるHATと比較して遅延-BLEUトレードオフが優れていることを示す。
さらに、メモリ効率のよいタスク非依存のBERTモデルを構築するためにNASを抜いて、NAS-BERTとAutoDistilを様々なモデルサイズで超越している。
コードはhttps://github.com/UBC-NLP/MoS.comで参照できる。
関連論文リスト
- Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - TODM: Train Once Deploy Many Efficient Supernet-Based RNN-T Compression
For On-device ASR Models [30.758876520227666]
TODMは、ハードウェアフレンドリーなオンデバイスASRモデルの多くのサイズを、単一のトレーニングジョブと同等のGPU時間で効率的にトレーニングするための、新しいアプローチである。
我々は,TODMスーパーネットの結果を改善するために,新しい3つの手法の組み合わせを導入する。
結果から,TODMスーパーネットは単語誤り率(WER)において,最大3%の精度で手動調整モデルの性能に適合するか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-05T04:47:55Z) - Neural Architecture Search for Improving Latency-Accuracy Trade-off in
Split Computing [5.516431145236317]
スプリットコンピューティングは、IoTシステムにディープラーニングをデプロイする際のプライバシとレイテンシの問題に対処する、新たな機械学習推論技術である。
スプリットコンピューティングでは、ニューラルネットワークモデルは、エッジサーバとIoTデバイスをネットワークを介して分離し、協調的に処理される。
本稿ではスプリットコンピューティングのためのニューラルアーキテクチャサーチ(NAS)手法を提案する。
論文 参考訳(メタデータ) (2022-08-30T03:15:43Z) - NASRec: Weight Sharing Neural Architecture Search for Recommender
Systems [40.54254555949057]
NASRecは,1つのスーパーネットをトレーニングし,重量共有により豊富なモデル/サブアーキテクチャを効率的に生成するパラダイムである。
CTR(Click-Through Rates)の3つの予測ベンチマークの結果,NASRecは手動設計モデルと既存のNAS手法の両方より優れていることが示された。
論文 参考訳(メタデータ) (2022-07-14T20:15:11Z) - FlowNAS: Neural Architecture Search for Optical Flow Estimation [65.44079917247369]
本研究では,フロー推定タスクにおいて,より優れたエンコーダアーキテクチャを自動で見つけるために,FlowNASというニューラルアーキテクチャ探索手法を提案する。
実験の結果、スーパーネットワークから受け継いだ重み付きアーキテクチャは、KITTI上で4.67%のF1-allエラーを達成していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T09:05:25Z) - Supernet Training for Federated Image Classification under System
Heterogeneity [15.2292571922932]
本研究では,2つのシナリオ,すなわちフェデレーション・オブ・スーパーネット・トレーニング(FedSup)を考えるための新しい枠組みを提案する。
フェデレートラーニング(FL)のモデルアグリゲーション段階でのパラメータの平均化は、スーパーネットトレーニングにおけるウェイトシェアリングとどのように似ているかに着想を得ている。
本フレームワークでは,通信コストの削減とトレーニングオーバーヘッドの低減のために,放送段階のクライアントにサブモデルを送信することで,効率的なアルゴリズム(E-FedSup)を提案する。
論文 参考訳(メタデータ) (2022-06-03T02:21:01Z) - Enabling NAS with Automated Super-Network Generation [60.72821429802335]
最近のニューラルアーキテクチャサーチ(NAS)ソリューションは、スーパーネットワークをトレーニングし、それから導出作業を行うという印象的な結果を生み出している。
本稿では,NAS用スーパーネットワークの自動生成のためのソフトウェアフレームワークであるBootstrapNASを紹介する。
論文 参考訳(メタデータ) (2021-12-20T21:45:48Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - AlphaNet: Improved Training of Supernet with Alpha-Divergence [28.171262066145616]
より汎用的なアルファダイバージェンスでスーパーネットトレーニングを改善することを提案する。
提案するアルファディバージェンスに基づくスーパーネットトレーニングを,スリムブルニューラルネットワークと重み共有NASの両方に適用する。
特に、発見されたモデルファミリーであるAlphaNetは、幅広いFLOPシステムにおいて、先行技術モデルよりも優れています。
論文 参考訳(メタデータ) (2021-02-16T04:23:55Z) - BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage
Models [59.95091850331499]
予測精度を高めるためには,重みの処理後処理が必要であるという従来の知恵に挑戦するアプローチであるBigNASを提案する。
発見されたモデルファミリーであるBigNASModelsは76.5%から80.9%の範囲でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2020-03-24T23:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。