論文の概要: Efficient Neural Architecture Search for End-to-end Speech Recognition
via Straight-Through Gradients
- arxiv url: http://arxiv.org/abs/2011.05649v1
- Date: Wed, 11 Nov 2020 09:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 01:01:41.467178
- Title: Efficient Neural Architecture Search for End-to-end Speech Recognition
via Straight-Through Gradients
- Title(参考訳): ストレートスルー勾配を用いたエンドツーエンド音声認識のための効率的なニューラルアーキテクチャ探索
- Authors: Huahuan Zheng, Keyu An, Zhijian Ou
- Abstract要約: そこで我々は,ST-NASと呼ばれるStraight-Through(ST)勾配を用いた効率的なニューラルネットワーク探索法を開発した。
広くベンチマークされた80時間のWSJと300時間のSwitchboardデータセットに対する実験は、ST-NASによって誘導されるアーキテクチャが、2つのデータセットで設計されたアーキテクチャを大幅に上回っていることを示している。
また,ST-NASのアーキテクチャ伝達性やメモリおよび時間における計算コストの低減といった強度についても報告する。
- 参考スコア(独自算出の注目度): 17.501966450686282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Architecture Search (NAS), the process of automating architecture
engineering, is an appealing next step to advancing end-to-end Automatic Speech
Recognition (ASR), replacing expert-designed networks with learned,
task-specific architectures. In contrast to early computational-demanding NAS
methods, recent gradient-based NAS methods, e.g., DARTS (Differentiable
ARchiTecture Search), SNAS (Stochastic NAS) and ProxylessNAS, significantly
improve the NAS efficiency. In this paper, we make two contributions. First, we
rigorously develop an efficient NAS method via Straight-Through (ST) gradients,
called ST-NAS. Basically, ST-NAS uses the loss from SNAS but uses ST to
back-propagate gradients through discrete variables to optimize the loss, which
is not revealed in ProxylessNAS. Using ST gradients to support sub-graph
sampling is a core element to achieve efficient NAS beyond DARTS and SNAS.
Second, we successfully apply ST-NAS to end-to-end ASR. Experiments over the
widely benchmarked 80-hour WSJ and 300-hour Switchboard datasets show that the
ST-NAS induced architectures significantly outperform the human-designed
architecture across the two datasets. Strengths of ST-NAS such as architecture
transferability and low computation cost in memory and time are also reported.
- Abstract(参考訳): アーキテクチャエンジニアリングを自動化するプロセスであるNeural Architecture Search(NAS)は、専門家が設計したネットワークを学習したタスク固有のアーキテクチャに置き換え、エンドツーエンドの自動音声認識(ASR)を進めるための魅力的な次のステップである。
初期の計算要求NAS法とは対照的に、DARTS (Differentiable ARchiTecture Search)、SNAS (Stochastic NAS)、ProxylessNASといった最近の勾配に基づくNAS法はNAS効率を大幅に改善している。
本稿では,二つの貢献を述べる。
まず,ST-NASと呼ばれるStraight-Through(ST)勾配を用いた効率的なNAS法を開発した。
基本的にst-nasはsnasからの損失を使うが、stを使って離散変数を通じて勾配をバックプロパゲートし、損失を最適化する。
サブグラフサンプリングをサポートするためにST勾配を用いることは、DARTSやSNASを超える効率的なNASを実現するための中核要素である。
次に,ST-NASをエンドツーエンドASRに適用する。
広くベンチマークされた80時間のWSJと300時間のSwitchboardデータセットに対する実験は、ST-NASによって誘導されるアーキテクチャが、2つのデータセットで設計されたアーキテクチャを大幅に上回っていることを示している。
また,ST-NASのアーキテクチャ伝達性やメモリおよび時間における計算コストの低減といった強度についても報告する。
関連論文リスト
- SiGeo: Sub-One-Shot NAS via Information Theory and Geometry of Loss
Landscape [14.550053893504764]
ゼロショットとワンショットNASの間のブリッジとして機能する"サブワンショット"パラダイムを導入する。
サブワンショットNASでは、スーパーネットはトレーニングデータの小さなサブセットのみを使用してトレーニングされる。
提案するプロキシは,スーパーネットウォームアップとプロキシの有効性を結びつける,新しい理論フレームワーク上に構築されたプロキシである。
論文 参考訳(メタデータ) (2023-11-22T05:25:24Z) - Meta-prediction Model for Distillation-Aware NAS on Unseen Datasets [55.2118691522524]
Distillation-Aware Neural Architecture Search (DaNAS) は、最適な学生アーキテクチャを探すことを目的としている。
本稿では,あるアーキテクチャの最終的な性能をデータセット上で予測できる,蒸留対応のメタ精度予測モデルDaSSを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:00:35Z) - DiffusionNAG: Predictor-guided Neural Architecture Generation with Diffusion Models [56.584561770857306]
本研究では拡散モデルに基づく新しい条件付きニューラルネットワーク生成(NAG)フレームワークDiffusionNAGを提案する。
具体的には、ニューラルネットワークを有向グラフとみなし、それらを生成するためのグラフ拡散モデルを提案する。
本研究では,2つの予測型NAS(Transferable NAS)とベイズ最適化(BO)に基づくNAS(Bayesian Optimization)の2つのシナリオにおいて,DiffusionNAGの有効性を検証する。
BOベースのアルゴリズムに統合されると、DiffusionNAGは既存のBOベースのNASアプローチ、特にImageNet 1Kデータセット上の大規模なMobileNetV3検索スペースよりも優れている。
論文 参考訳(メタデータ) (2023-05-26T13:58:18Z) - BaLeNAS: Differentiable Architecture Search via the Bayesian Learning
Rule [95.56873042777316]
近年,微分可能なアーキテクチャ探索 (DARTS) が注目されている。
本稿では,アーキテクチャ重みをガウス分布に緩和することにより,ニューラルネットワーク探索を分布学習問題として定式化する。
ベイズ主義の原理から異なるNASがいかに恩恵を受け、探索を強化し、安定性を向上するかを実証する。
論文 参考訳(メタデータ) (2021-11-25T18:13:42Z) - TND-NAS: Towards Non-differentiable Objectives in Progressive
Differentiable NAS Framework [6.895590095853327]
微分可能なアーキテクチャサーチは、ニューラルネットワークサーチ(NAS)分野において、徐々に主流の研究トピックになりつつある。
最近の差別化可能なNASは、検索性能の向上とGPUメモリ消費の削減も目指している。
微分可能なNASフレームワークにおける高効率と、多目的NASにおける非微分可能なメトリクス間の互換性を両立させたTND-NASを提案する。
論文 参考訳(メタデータ) (2021-11-06T14:19:36Z) - Memory-Efficient Hierarchical Neural Architecture Search for Image
Restoration [68.6505473346005]
メモリ効率の高い階層型NAS HiNAS(HiNAS)を提案する。
単一の GTX1080Ti GPU では、BSD 500 でネットワークを消すのに約 1 時間、DIV2K で超解像構造を探すのに 3.5 時間しかかかりません。
論文 参考訳(メタデータ) (2020-12-24T12:06:17Z) - AdvantageNAS: Efficient Neural Architecture Search with Credit
Assignment [23.988393741948485]
ワンショット・スパース伝播NAS(AdvantageNAS)の新たな探索戦略を提案する。
アドバンテージNASは、アーキテクチャ更新の勾配推定にクレジット割り当てを導入することで検索効率を向上させるグラデーションベースのアプローチです。
NAS-Bench-201およびPTBデータセットの実験は、AdvantageNASが限られた時間予算でより高いパフォーマンスのアーキテクチャを発見することを示しています。
論文 参考訳(メタデータ) (2020-12-11T05:45:03Z) - Binarized Neural Architecture Search for Efficient Object Recognition [120.23378346337311]
バイナリ化されたニューラルネットワークサーチ(BNAS)は、エッジコンピューティング用の組み込みデバイスにおいて、膨大な計算コストを削減するために、極めて圧縮されたモデルを生成する。
9,6.53%対9,7.22%の精度はCIFAR-10データセットで達成されるが、かなり圧縮されたモデルで、最先端のPC-DARTSよりも40%速い検索が可能である。
論文 参考訳(メタデータ) (2020-09-08T15:51:23Z) - DSNAS: Direct Neural Architecture Search without Parameter Retraining [112.02966105995641]
この観測に基づいて,タスク固有のエンドツーエンドであるNASの新たな問題定義を提案する。
低バイアスモンテカルロ推定でアーキテクチャとパラメータを同時に最適化する効率的な微分可能なNASフレームワークであるDSNASを提案する。
DSNASは、420GPU時間でImageNetで同等の精度(74.4%)のネットワークを発見し、総時間を34%以上削減した。
論文 参考訳(メタデータ) (2020-02-21T04:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。