論文の概要: Neural Architecture Search For Keyword Spotting
- arxiv url: http://arxiv.org/abs/2009.00165v2
- Date: Wed, 2 Sep 2020 04:10:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 02:03:23.629138
- Title: Neural Architecture Search For Keyword Spotting
- Title(参考訳): キーワードスポッティングのためのニューラルアーキテクチャ探索
- Authors: Tong Mo, Yakun Yu, Mohammad Salameh, Di Niu, Shangling Jui
- Abstract要約: 畳み込みニューラルネットワークモデル探索にニューラルネットワーク探索を適用した。
12級発話分類の設定により,最先端の精度が97%以上向上した。
- 参考スコア(独自算出の注目度): 18.253449041632166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have recently become a popular solution to keyword
spotting systems, which enable the control of smart devices via voice. In this
paper, we apply neural architecture search to search for convolutional neural
network models that can help boost the performance of keyword spotting based on
features extracted from acoustic signals while maintaining an acceptable memory
footprint. Specifically, we use differentiable architecture search techniques
to search for operators and their connections in a predefined cell search
space. The found cells are then scaled up in both depth and width to achieve
competitive performance. We evaluated the proposed method on Google's Speech
Commands Dataset and achieved a state-of-the-art accuracy of over 97% on the
setting of 12-class utterance classification commonly reported in the
literature.
- Abstract(参考訳): ディープニューラルネットワークは最近、音声によるスマートデバイスの制御を可能にするキーワードスポッティングシステムの一般的なソリューションになっている。
本稿では,音響信号から抽出した特徴に基づくキーワードスポッティングの性能向上を支援するとともに,許容メモリフットプリントを維持しながら,畳み込みニューラルネットワークモデルの探索にニューラルネットワーク探索を適用した。
具体的には,事前定義されたセル検索空間における演算子とその接続を探索するために,微分可能なアーキテクチャ検索技術を用いる。
見つかった細胞は、競争性能を達成するために深さと幅の両方でスケールアップされる。
提案手法をGoogleの音声コマンドデータセット上で評価し,文献で一般的に報告される12種類の発話分類の設定に対して,最先端の精度を97%以上達成した。
関連論文リスト
- EM-DARTS: Hierarchical Differentiable Architecture Search for Eye Movement Recognition [54.99121380536659]
眼球運動バイオメトリックスは、高い安全性の識別により注目されている。
深層学習(DL)モデルは近年,眼球運動認識に成功している。
DLアーキテクチャはまだ人間の事前知識によって決定されている。
眼球運動認識のためのDLアーキテクチャを自動設計する階層的微分可能なアーキテクチャ探索アルゴリズムEM-DARTSを提案する。
論文 参考訳(メタデータ) (2024-09-22T13:11:08Z) - Encoder-Decoder Neural Architecture Optimization for Keyword Spotting [4.419022795297077]
キーワードスポッティングは、特定のキーワードの音声発話を特定することを目的としている。
深層畳み込みニューラルネットワークはキーワードスポッティングシステムで広く利用されている。
本稿では,キーワードスポッティングの性能を向上させる畳み込みニューラルネットワークモデルの設計にニューラルネットワーク探索を利用する。
論文 参考訳(メタデータ) (2021-06-04T22:09:05Z) - Firefly Neural Architecture Descent: a General Approach for Growing
Neural Networks [50.684661759340145]
firefly neural architecture descentは、ニューラルネットワークを漸進的かつ動的に成長させるための一般的なフレームワークである。
ホタルの降下は、より広く、より深くネットワークを柔軟に成長させ、正確だがリソース効率のよいニューラルアーキテクチャを学習するために応用できることを示す。
特に、サイズは小さいが、最先端の手法で学習したネットワークよりも平均精度が高いネットワークを学習する。
論文 参考訳(メタデータ) (2021-02-17T04:47:18Z) - Towards Searching Efficient and Accurate Neural Network Architectures in
Binary Classification Problems [4.3871352596331255]
本研究では,異なる探索アルゴリズムを調査し,最も精度の高いニューラルネットワークのアーキテクチャサイズを求めることで,選択プロセスを最適化する。
非常に明確に定義されたバイナリ分類ネットワーク検索空間でバイナリ検索を適用し、結果を線形検索と比較します。
我々は,二項探索法をデータセットに適用した場合,ナイーブ線形探索よりも100倍長い実行時間の改善を報告した。
論文 参考訳(メタデータ) (2021-01-16T20:00:38Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - Task-Aware Neural Architecture Search [33.11791812491669]
本稿では,ベースタスクのモデル辞書と対象タスクと辞書の原子との類似性を利用して,ニューラルアーキテクチャ探索のための新しいフレームワークを提案する。
勾配に基づく探索アルゴリズムを導入することにより、ネットワークを完全に訓練することなく、検索空間の最良のアーキテクチャを評価し、発見することができる。
論文 参考訳(メタデータ) (2020-10-27T00:10:40Z) - NAS-Navigator: Visual Steering for Explainable One-Shot Deep Neural
Network Synthesis [53.106414896248246]
本稿では,分析者がドメイン知識を注入することで,解のサブグラフ空間を効果的に構築し,ネットワーク探索をガイドするフレームワークを提案する。
このテクニックを反復的に適用することで、アナリストは、与えられたアプリケーションに対して最高のパフォーマンスのニューラルネットワークアーキテクチャに収束することができる。
論文 参考訳(メタデータ) (2020-09-28T01:48:45Z) - VINNAS: Variational Inference-based Neural Network Architecture Search [2.685668802278155]
スパース畳み込みニューラルネットワークを探索するための可変変分推論に基づくNAS法を提案する。
提案手法は,非ゼロパラメータの約2倍の精度で最先端の精度を示しながら,多様なネットワークセルを探索する。
論文 参考訳(メタデータ) (2020-07-12T21:47:35Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。