論文の概要: The NPU System for the 2020 Personalized Voice Trigger Challenge
- arxiv url: http://arxiv.org/abs/2102.13552v1
- Date: Fri, 26 Feb 2021 15:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 13:40:55.706646
- Title: The NPU System for the 2020 Personalized Voice Trigger Challenge
- Title(参考訳): 2020年個人化音声トリガチャレンジのためのNPUシステム
- Authors: Jingyong Hou, Li Zhang, Yihui Fu, Qing Wang, Zhanheng Yang, Qijie
Shao, Lei Xie
- Abstract要約: 本稿は、NPUチームが2020年のパーソナライズされた音声トリガーチャレンジのために開発したシステムについて述べる。
提案システムは,kws(small footprint keyword spotting)システムとsv(speaker verification)システムという,2つの独立した学習サブシステムで構成されている。
- 参考スコア(独自算出の注目度): 18.990924197665514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the system developed by the NPU team for the 2020
personalized voice trigger challenge. Our submitted system consists of two
independently trained subsystems: a small footprint keyword spotting (KWS)
system and a speaker verification (SV) system. For the KWS system, a
multi-scale dilated temporal convolutional (MDTC) network is proposed to detect
wake-up word (WuW). For SV system, Write something here. The KWS predicts
posterior probabilities of whether an audio utterance contains WuW and
estimates the location of WuW at the same time. When the posterior probability
ofWuW reaches a predefined threshold, the identity information of triggered
segment is determined by the SV system. On evaluation dataset, our submitted
system obtains detection costs of 0.081and 0.091 in close talking and far-field
tasks, respectively.
- Abstract(参考訳): 本稿は、NPUチームが2020年のパーソナライズされた音声トリガーチャレンジのために開発したシステムについて述べる。
提案システムは,kws(small footprint keyword spotting)システムとsv(speaker verification)システムという,2つの独立した学習サブシステムで構成されている。
KWSシステムでは、覚醒単語(WuW)を検出するために、MDTC(Multi-scale dilated temporal convolutional)ネットワークを提案する。
SVシステムについては、ここで何かを書きましょう。
KWSは、音声発話がWuWを含むかどうかの後方確率を予測し、同時にWuWの位置を推定する。
WuWの後方確率が予め定義されたしきい値に達すると、トリガセグメントの識別情報がSVシステムによって決定される。
評価データセットでは,近接発話と遠距離作業において0.081と0.091の検出コストがそれぞれ得られた。
関連論文リスト
- USTC-KXDIGIT System Description for ASVspoof5 Challenge [30.962424920219224]
ASVspoof5 Challenge for Track 1(音声ディープフェイク検出)とTrack 2(音声自動話者検証,SASV)に提出されたUSTC-KXDIGITシステムについて述べる。
トラック1は、潜在的な処理アルゴリズムから様々な技術的品質を示し、オープン条件とクローズ条件の両方を含んでいる。
トラック2では、トラック1からのCMシステムの使用を継続し、CNNベースのASVシステムと融合した。
この手法は閉条件で0.2814 min-aDCF、開条件で0.0756 min-aDCFを達成し、優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-03T08:28:58Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - BBS-KWS:The Mandarin Keyword Spotting System Won the Video Keyword
Wakeup Challenge [14.312411161892705]
本稿では,Yidun NISPチームから提出されたビデオキーワードのウェイクアップ課題について紹介する。
マンダリンキーワードスポッティングシステム(KWS)を提案する。
VKWタスクでは、BBS-KWSシステムはベースラインよりも大幅に向上し、2トラックで1位を獲得した。
論文 参考訳(メタデータ) (2021-12-03T07:27:13Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - USTC-NELSLIP System Description for DIHARD-III Challenge [78.40959509760488]
我々のシステムの革新は、ダイアリゼーション問題を解決するための様々なフロントエンド技術の組み合わせにある。
私達の最もよいシステムは評価セットのトラック1および16.78%のトラック2で11.30%のDERを達成しました。
論文 参考訳(メタデータ) (2021-03-19T07:00:51Z) - A low latency ASR-free end to end spoken language understanding system [11.413018142161249]
本研究は,最小レイテンシでマイクロコントローラや組み込みシステム上で動作可能な,フットプリントの少ないシステムを提案する。
ストリーム入力音声信号が与えられた場合,処理時にストリーム全体を保持する必要がなく,セグメント単位で処理することができる。
実験の結果,提案システムでは,同じタスクにおける他の論文と比較した場合,低レイテンシとはるかに少ないモデルにより,最先端の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-10T04:16:56Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning
with Keywords and Sentence Length Estimation [49.41766997393417]
本報告では, 音響シーン・イベントの検出・分類に関わるシステムについて述べる。
本論文は,音声の自動字幕化における2つの不確定性,すなわち,単語選択不確定性と文長不確定性に焦点をあてる。
マルチタスク学習によりキーワードと文長を推定することにより,主字幕生成と部分不確定化を同時に解決する。
論文 参考訳(メタデータ) (2020-07-01T04:26:27Z) - LEAP System for SRE19 CTS Challenge -- Improvements and Error Analysis [36.35711634925221]
CTSチャレンジに提出されたLEAP SREシステムの詳細な説明を提供する。
すべてのシステムは、TDNNベースのxベクトル埋め込みを使用していた。
生成的PLDAモデルとニューラルPLDAモデルの組み合わせにより、SRE評価データセットが大幅に改善された。
論文 参考訳(メタデータ) (2020-02-07T12:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。