論文の概要: EfficientTDNN: Efficient Architecture Search for Speaker Recognition in
the Wild
- arxiv url: http://arxiv.org/abs/2103.13581v1
- Date: Thu, 25 Mar 2021 03:28:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:31:03.036439
- Title: EfficientTDNN: Efficient Architecture Search for Speaker Recognition in
the Wild
- Title(参考訳): efficienttdnn: 野生の話者認識のための効率的なアーキテクチャ探索
- Authors: Rui Wang, Zhihua Wei, Shouling Ji, and Zhen Hong
- Abstract要約: 認識精度を維持しつつ、推論効率を向上させるために、ニューラルネットワーク探索に基づく効率的な時間遅延ニューラルネットワーク(EfficientTDNN)を提案する。
VoxCelebデータセットの実験では、EfficientTDNNは約1013$sの巨大な検索スペースを提供し、1.66%のEERと0.156のDCF$_0.01$と565MMACを達成している。
- 参考スコア(独自算出の注目度): 29.59228560095565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker recognition refers to audio biometrics that utilizes acoustic
characteristics for automatic speaker recognition. These systems have emerged
as an essential means of verifying identity in various scenarios, such as smart
homes, general business interactions, e-commerce applications, and forensics.
However, the mismatch between training and real-world data causes a shift of
speaker embedding space and severely degrades the recognition performance.
Various complicated neural architectures are presented to address speaker
recognition in the wild but neglect the requirements of storage and
computation. To address this issue, we propose a neural architecture
search-based efficient time-delay neural network (EfficientTDNN) to improve
inference efficiency while maintaining recognition accuracy. The proposed
EfficientTDNN contains three phases. First, supernet design is to construct a
dynamic neural architecture that consists of sequential cells and enables
network pruning. Second, progressive training is to optimize randomly sampled
subnets that inherit the weights of the supernet. Third, three search methods,
including manual grid search, random search, and model predictive evolutionary
search, are introduced to find a trade-off between accuracy and efficiency.
Results of experiments on the VoxCeleb dataset show EfficientTDNN provides a
huge search space including approximately $10^{13}$ subnets and achieves 1.66%
EER and 0.156 DCF$_{0.01}$ with 565M MACs. Comprehensive investigation suggests
that the trained supernet generalizes cells unseen during training and obtains
an acceptable balance between accuracy and efficiency.
- Abstract(参考訳): 話者認識は、自動話者認識に音響特性を利用するオーディオバイオメトリックスを指す。
これらのシステムは、スマートホーム、一般的なビジネスインタラクション、eコマースアプリケーション、法医学など、さまざまなシナリオにおけるアイデンティティを検証する重要な手段として現れています。
しかし、トレーニングと実世界のデータとのミスマッチは話者埋め込み空間のシフトを引き起こし、認識性能を著しく低下させる。
様々な複雑なニューラルネットワークアーキテクチャは、野生の話者認識に対処するが、記憶と計算の要求を無視する。
本稿では,認識精度を維持しつつ推論効率を向上させるために,効率的な時間遅延ニューラルネットワーク(efficianttdnn)を提案する。
提案するEfficientTDNNは3つのフェーズを含む。
第一に、スーパーネットの設計は、シーケンシャルセルで構成され、ネットワークプルーニングを可能にする動的ニューラルネットワークアーキテクチャを構築することである。
第二に、プログレッシブトレーニングは、スーパーネットの重みを継承するランダムサンプリングサブネットを最適化することである。
第3に,手動グリッド探索,ランダム探索,モデル予測進化探索という3つの探索手法を導入し,精度と効率のトレードオフを見いだした。
VoxCelebデータセットの実験の結果、EfficientTDNNは、約10^{13}$サブネットを含む巨大な検索スペースを提供し、1.66% EERと0.156 DCF$_{0.01}$を565MMACで達成している。
総合的な調査により、訓練されたスーパーネットは、訓練中の細胞を一般化し、正確性と効率の許容可能なバランスを得ることが示唆される。
関連論文リスト
- Explainable Cost-Sensitive Deep Neural Networks for Brain Tumor
Detection from Brain MRI Images considering Data Imbalance [0.0]
CNN、ResNet50、InceptionV3、EfficientNetB0、NASNetMobileの5つのモデルを含む自動パイプラインが提案されている。
提案アーキテクチャの性能はバランスの取れたデータセットで評価され、微調整されたInceptionV3モデルに対して99.33%の精度が得られた。
トレーニングプロセスをさらに最適化するために、不均衡なデータセットを扱うために、コストに敏感なニューラルネットワークアプローチが提案されている。
論文 参考訳(メタデータ) (2023-08-01T15:35:06Z) - Human Activity Recognition on Microcontrollers with Quantized and
Adaptive Deep Neural Networks [10.195581493173643]
慣性データに基づくヒューマンアクティビティ認識(HAR)は、組み込みデバイス上でますます普及しているタスクである。
ほとんどの組み込みHARシステムは、単純で精度の低い古典的機械学習アルゴリズムに基づいている。
本研究は,汎用マイクロコントローラ(MCU)上に展開可能な1次元畳み込みニューラルネットワーク(CNN)の集合を提案する。
論文 参考訳(メタデータ) (2022-09-02T06:32:11Z) - Automated Atrial Fibrillation Classification Based on Denoising Stacked
Autoencoder and Optimized Deep Network [1.7403133838762446]
心房細動(AFib)の発症率は世界中で増加傾向にある。
AFibのリスクを早期に検出するために,我々はディープニューラルネットワークに基づく自動検出システムを開発した。
Denoising Autoencoders (DAE) を用いて心電図信号を復調するエンド・ツー・エンドモデルを提案する。
論文 参考訳(メタデータ) (2022-01-26T21:45:48Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。