論文の概要: SpeechNAS: Towards Better Trade-off between Latency and Accuracy for
Large-Scale Speaker Verification
- arxiv url: http://arxiv.org/abs/2109.08839v1
- Date: Sat, 18 Sep 2021 05:31:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 17:01:15.580249
- Title: SpeechNAS: Towards Better Trade-off between Latency and Accuracy for
Large-Scale Speaker Verification
- Title(参考訳): speechnas:大規模話者照合におけるレイテンシと精度のトレードオフ改善に向けて
- Authors: Wentao Zhu, Tianlong Kong, Shun Lu, Jixiang Li, Dawei Zhang, Feng
Deng, Xiaorui Wang, Sen Yang, Ji Liu
- Abstract要約: 本研究では,ニューラルアーキテクチャサーチ(NAS)を用いたTDNNに基づく探索空間から最適アーキテクチャを同定する。
我々の導出した最良のニューラルネットワークはVoxCeleb1の標準テストセットで1.02%の誤差率(EER)を達成する。
- 参考スコア(独自算出の注目度): 26.028985033942735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, x-vector has been a successful and popular approach for speaker
verification, which employs a time delay neural network (TDNN) and statistics
pooling to extract speaker characterizing embedding from variable-length
utterances. Improvement upon the x-vector has been an active research area, and
enormous neural networks have been elaborately designed based on the x-vector,
eg, extended TDNN (E-TDNN), factorized TDNN (F-TDNN), and densely connected
TDNN (D-TDNN). In this work, we try to identify the optimal architectures from
a TDNN based search space employing neural architecture search (NAS), named
SpeechNAS. Leveraging the recent advances in the speaker recognition, such as
high-order statistics pooling, multi-branch mechanism, D-TDNN and angular
additive margin softmax (AAM) loss with a minimum hyper-spherical energy (MHE),
SpeechNAS automatically discovers five network architectures, from SpeechNAS-1
to SpeechNAS-5, of various numbers of parameters and GFLOPs on the large-scale
text-independent speaker recognition dataset VoxCeleb1. Our derived best neural
network achieves an equal error rate (EER) of 1.02% on the standard test set of
VoxCeleb1, which surpasses previous TDNN based state-of-the-art approaches by a
large margin. Code and trained weights are in
https://github.com/wentaozhu/speechnas.git
- Abstract(参考訳): 近年,時間遅延ニューラルネットワーク(TDNN)と統計プールを用いて,可変長音声から話者特徴化埋め込みを抽出する話者検証手法が成功し,普及している。
xベクターの改良は活発な研究領域であり、巨大なニューラルネットワークは、xベクター、eg、拡張TDNN(E-TDNN)、分解TDNN(F-TDNN)、密結合TDNN(D-TDNN)に基づいて精巧に設計されている。
本研究では,ニューラルアーキテクチャサーチ(NAS)を用いて,TDNNに基づく探索空間から最適なアーキテクチャを同定する。
high-order statistics pooling, multi-branch mechanism, d-tdnn and angular additive margin softmax (aam) loss with a minimum hyper-spherical energy (mhe) などの最近の話者認識の進歩を活用して、 speechnasは、様々なパラメータの speechnas-1 から speechnas-5 までの5つのネットワークアーキテクチャを、大規模テキスト非依存話者認識データセット voxceleb1 上で自動的に発見する。
得られたベストニューラルネットワークは,従来のtdnnベースの最先端アプローチを大差で上回るvoxceleb1の標準テストセットにおいて,1.02%の誤差率(eer)を達成している。
コードとトレーニングされた重みはhttps://github.com/wentaozhu/speechnas.gitにある。
関連論文リスト
- NAS-BNN: Neural Architecture Search for Binary Neural Networks [55.058512316210056]
我々は、NAS-BNNと呼ばれる二元ニューラルネットワークのための新しいニューラルネットワーク探索手法を提案する。
我々の発見したバイナリモデルファミリーは、20Mから2Mまでの幅広い操作(OP)において、以前のBNNよりも優れていた。
さらに,対象検出タスクにおける探索されたBNNの転送可能性を検証するとともに,探索されたBNNを用いたバイナリ検出器は,MSデータセット上で31.6% mAP,370万 OPsなどの新たな最先端結果を得る。
論文 参考訳(メタデータ) (2024-08-28T02:17:58Z) - MatchNAS: Optimizing Edge AI in Sparse-Label Data Contexts via
Automating Deep Neural Network Porting for Mobile Deployment [54.77943671991863]
MatchNASはDeep Neural Networksをモバイルデバイスに移植するための新しいスキームである。
ラベル付きデータと非ラベル付きデータの両方を用いて、大規模なネットワークファミリを最適化する。
そして、さまざまなハードウェアプラットフォーム用に調整されたネットワークを自動的に検索する。
論文 参考訳(メタデータ) (2024-02-21T04:43:12Z) - On the Computational Complexity and Formal Hierarchy of Second Order
Recurrent Neural Networks [59.85314067235965]
2次次リカレントネットワーク(RNN)の理論基盤を拡大する(2次RNN)
有界時間でチューリング完備な RNN のクラスが存在することを証明している。
また、記憶のない2ドルのRNNは、バニラRNNのような現代のモデルよりも優れており、正規文法の認識において繰り返し単位をゲートしていることを示す。
論文 参考訳(メタデータ) (2023-09-26T06:06:47Z) - INK: Injecting kNN Knowledge in Nearest Neighbor Machine Translation [57.952478914459164]
kNN-MTは、推論中に隣接する表現に基づいて予測を円滑にするための効果的なパラダイムを提供する。
我々は,kNN近傍の表現を少数の新しいパラメータで調整することで,表現空間を円滑にするための効果的なトレーニングフレームワークINKを提案する。
4つのベンチマークデータセットでの実験では、メソッドは1.99 COMETと1.0 BLEUの平均ゲインを達成し、0.02倍のメモリ空間と1.9倍の推論速度を持つ最先端のkNN-MTシステムより優れていた。
論文 参考訳(メタデータ) (2023-06-10T08:39:16Z) - Can Deep Neural Networks be Converted to Ultra Low-Latency Spiking
Neural Networks? [3.2108350580418166]
スパイクニューラルネットワーク(SNN)は、時間とともに分散されたバイナリスパイクを介して動作する。
SNNのためのSOTAトレーニング戦略は、非スパイキングディープニューラルネットワーク(DNN)からの変換を伴う
そこで本研究では,DNNと変換SNNの誤差を最小限に抑えながら,これらの分布を正確にキャプチャする新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-22T18:47:45Z) - Beyond Classification: Directly Training Spiking Neural Networks for
Semantic Segmentation [5.800785186389827]
ニューラルネットワークの低消費電力代替としてスパイキングニューラルネットワーク(SNN)が登場している。
本稿では,ニューロンをスパイクしたセマンティックセグメンテーションネットワークの分類を超えて,SNNの応用について検討する。
論文 参考訳(メタデータ) (2021-10-14T21:53:03Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Depthwise Separable Convolutions Versus Recurrent Neural Networks for
Monaural Singing Voice Separation [17.358040670413505]
我々は歌声分離に重点を置き、RNNアーキテクチャを採用し、RNNをDWS畳み込み(DWS-CNN)に置き換える。
本稿では,DWS-CNNのチャネル数と層数による音源分離性能への影響について検討する。
その結果、RNNをDWS-CNNに置き換えることで、RNNアーキテクチャのパラメータの20.57%しか使用せず、それぞれ1.20、0.06、0.37dBの改善が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-06T12:32:34Z) - Crossed-Time Delay Neural Network for Speaker Recognition [5.216353911330589]
我々は,現在のTDNNの性能を高めるために,新しい構造であるCrossed-Time Delay Neural Network (CTDNN)を導入する。
提案したCTDNNは,話者認証タスクと識別タスクの両方において,元のTDNNよりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-31T06:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。