論文の概要: AutoSpeech: Neural Architecture Search for Speaker Recognition
- arxiv url: http://arxiv.org/abs/2005.03215v2
- Date: Mon, 31 Aug 2020 15:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 00:10:32.330905
- Title: AutoSpeech: Neural Architecture Search for Speaker Recognition
- Title(参考訳): AutoSpeech: 話者認識のためのニューラルネットワーク検索
- Authors: Shaojin Ding, Tianlong Chen, Xinyu Gong, Weiwei Zha, Zhangyang Wang
- Abstract要約: 本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 108.69505815793028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker recognition systems based on Convolutional Neural Networks (CNNs) are
often built with off-the-shelf backbones such as VGG-Net or ResNet. However,
these backbones were originally proposed for image classification, and
therefore may not be naturally fit for speaker recognition. Due to the
prohibitive complexity of manually exploring the design space, we propose the
first neural architecture search approach approach for the speaker recognition
tasks, named as AutoSpeech. Our algorithm first identifies the optimal
operation combination in a neural cell and then derives a CNN model by stacking
the neural cell for multiple times. The final speaker recognition model can be
obtained by training the derived CNN model through the standard scheme. To
evaluate the proposed approach, we conduct experiments on both speaker
identification and speaker verification tasks using the VoxCeleb1 dataset.
Results demonstrate that the derived CNN architectures from the proposed
approach significantly outperform current speaker recognition systems based on
VGG-M, ResNet-18, and ResNet-34 back-bones, while enjoying lower model
complexity.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)に基づく話者認識システムは、しばしば、vgg-netやresnetのような市販のバックボーンで構築される。
しかし、これらのバックボーンはもともと画像分類のために提案されていたため、話者認識には適さない可能性がある。
設計空間を手動で探索することの禁止的な複雑さから,AutoSpeechという名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
本アルゴリズムは,まずニューラルネットワークの最適動作の組み合わせを同定し,その後,ニューラルネットワークを複数回積み重ねることでcnnモデルを導出する。
最終話者認識モデルは、標準スキームを用いて導出したCNNモデルを訓練することにより得ることができる。
提案手法を評価するために,VoxCeleb1データセットを用いて話者識別と話者検証を行う。
その結果,提案手法から派生したcnnアーキテクチャは,vgg-m,resnet-18,resnet-34のバックボーンに基づく話者認識システムを大幅に上回り,モデルの複雑さを低減した。
関連論文リスト
- Three-class Overlapped Speech Detection using a Convolutional Recurrent
Neural Network [32.59704287230343]
提案手法は,非音声,単一話者発話,重複発話の3つのクラスに分類できる。
畳み込み型リカレントニューラルネットワークアーキテクチャは、畳み込み層がローカルパターンをモデル化する能力と、シーケンシャルな情報をモデル化するリカレント層の能力の両方の恩恵を受けるために研究されている。
提案した重畳重畳音声検出モデルは,DIHARD II評価セット上での精度0.6648,リコール0.3222で最先端の性能を確立する。
論文 参考訳(メタデータ) (2021-04-07T03:01:34Z) - EfficientTDNN: Efficient Architecture Search for Speaker Recognition in
the Wild [29.59228560095565]
認識精度を維持しつつ、推論効率を向上させるために、ニューラルネットワーク探索に基づく効率的な時間遅延ニューラルネットワーク(EfficientTDNN)を提案する。
VoxCelebデータセットの実験では、EfficientTDNNは約1013$sの巨大な検索スペースを提供し、1.66%のEERと0.156のDCF$_0.01$と565MMACを達成している。
論文 参考訳(メタデータ) (2021-03-25T03:28:07Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - Decentralizing Feature Extraction with Quantum Convolutional Neural
Network for Automatic Speech Recognition [101.69873988328808]
特徴抽出のための量子回路エンコーダからなる量子畳み込みニューラルネットワーク(QCNN)を構築した。
入力音声はまず、Mel-spectrogramを抽出するために量子コンピューティングサーバにアップストリームされる。
対応する畳み込み特徴は、ランダムパラメータを持つ量子回路アルゴリズムを用いて符号化される。
符号化された機能は、最終認識のためにローカルRNNモデルにダウンストリームされる。
論文 参考訳(メタデータ) (2020-10-26T03:36:01Z) - The HUAWEI Speaker Diarisation System for the VoxCeleb Speaker
Diarisation Challenge [6.6238321827660345]
本稿では,VoxCeleb Speaker Recognition Challenge 2020の話者ダイアリゼーショントラック(Track 4)のシステム構成について述べる。
我々のダイアリゼーションシステムは、入力音声信号のフロントエンドとして、よく訓練されたニューラルネットワークに基づく音声強調モデルから成り立っている。
論文 参考訳(メタデータ) (2020-10-22T12:42:07Z) - Evolutionary Algorithm Enhanced Neural Architecture Search for
Text-Independent Speaker Verification [29.939687921618678]
我々は、テキストに依存しない話者検証タスクに対して、ニューラルアーキテクチャサーチ(NAS)のアイデアを借用する。
本稿では,Auto-Designedと呼ばれる進化的アルゴリズムを改良したニューラルアーキテクチャ探索手法を提案する。
実験の結果,NASに基づくモデルは,最先端話者検証モデルよりも優れていた。
論文 参考訳(メタデータ) (2020-08-13T05:34:52Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。