論文の概要: Deep Spoken Keyword Spotting: An Overview
- arxiv url: http://arxiv.org/abs/2111.10592v1
- Date: Sat, 20 Nov 2021 13:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 17:29:33.385908
- Title: Deep Spoken Keyword Spotting: An Overview
- Title(参考訳): deep spokenキーワードスポッティング:概要
- Authors: Iv\'an L\'opez-Espejo and Zheng-Hua Tan and John Hansen and Jesper
Jensen
- Abstract要約: Spokenキーワードスポッティング(英: Spokenキーワードスポッティング、英: Spokenキーワードスポッティング、英: Spokenキーワードスポッティング)は、音声ストリームにおけるキーワードの識別を扱う。
ディープKWSは、音声科学者の間でホットな研究トピックとなっている。
- 参考スコア(独自算出の注目度): 28.33535370965807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken keyword spotting (KWS) deals with the identification of keywords in
audio streams and has become a fast-growing technology thanks to the paradigm
shift introduced by deep learning a few years ago. This has allowed the rapid
embedding of deep KWS in a myriad of small electronic devices with different
purposes like the activation of voice assistants. Prospects suggest a sustained
growth in terms of social use of this technology. Thus, it is not surprising
that deep KWS has become a hot research topic among speech scientists, who
constantly look for KWS performance improvement and computational complexity
reduction. This context motivates this paper, in which we conduct a literature
review into deep spoken KWS to assist practitioners and researchers who are
interested in this technology. Specifically, this overview has a comprehensive
nature by covering a thorough analysis of deep KWS systems (which includes
speech features, acoustic modeling and posterior handling), robustness methods,
applications, datasets, evaluation metrics, performance of deep KWS systems and
audio-visual KWS. The analysis performed in this paper allows us to identify a
number of directions for future research, including directions adopted from
automatic speech recognition research and directions that are unique to the
problem of spoken KWS.
- Abstract(参考訳): Spokenキーワードスポッティング(KWS)は、オーディオストリーム内のキーワードの識別を扱うもので、数年前にディープラーニングによって導入されたパラダイムシフトによって急速に成長する技術となっている。
これにより、音声アシスタントのアクティベートなど、さまざまな目的の小さな電子デバイスに、深いKWSを迅速に組み込むことが可能になった。
このテクノロジーの社会的利用に関して、持続的な成長が見込まれている。
したがって、深いkwsが、常にkwsのパフォーマンス向上と計算複雑性の低減を追求する音声科学者の間でホットな研究テーマになっていることは驚くにあたらない。
この文脈は,この技術に興味を持つ実践者や研究者を支援するために,深い音声kwに関する文献レビューを行う動機となっている。
具体的には、この概要は、深いKWSシステム(音声特徴、音響モデリング、後処理を含む)、堅牢性手法、アプリケーション、データセット、評価指標、深いKWSシステムの性能およびオーディオ視覚KWSを網羅的に分析することで包括的特性を有する。
本稿では,音声認識研究から採用される方向や,音声KWSの課題に特有の方向など,今後の研究の方向性について分析する。
関連論文リスト
- Multitaper mel-spectrograms for keyword spotting [42.82842124247846]
そこで本研究では,KWSの改良機能を実現するために,マルチタッパー技術を用いた手法について検討する。
提案した改良機能を使用することの利点を実験により確認した。
論文 参考訳(メタデータ) (2024-07-05T17:18:25Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Deep Neural Networks for Automatic Speaker Recognition Do Not Learn
Supra-Segmental Temporal Features [2.724035499453558]
本稿では,話者認識のための最先端ニューラルネットワークの性能が,SSTのモデル化によってどの程度説明できるかを定量化するための新しいテストを提案し,適用する。
話者認識のための様々なCNNおよびRNNベースのニューラルネットワークアーキテクチャは、強制してもSSTを十分な程度にモデル化していない。
論文 参考訳(メタデータ) (2023-11-01T12:45:31Z) - Speech Augmentation Based Unsupervised Learning for Keyword Spotting [29.87252331166527]
我々は、KWSタスクを実行するためにCNN-Attentionアーキテクチャを設計した。
また,KWSモデルのロバスト性を改善するための教師なし学習手法も提案した。
我々の実験では、拡張に基づく教師なし学習により、我々のKWSモデルは、他の教師なし手法よりも優れた性能を達成する。
論文 参考訳(メタデータ) (2022-05-28T04:11:31Z) - Deep Learning for Visual Speech Analysis: A Survey [54.53032361204449]
本稿では,視覚音声分析におけるディープラーニング手法の最近の進歩を概観する。
私たちは、基本的な問題、課題、ベンチマークデータセット、既存のメソッドの分類、最先端のパフォーマンスなど、視覚音声のさまざまな側面をカバーしています。
論文 参考訳(メタデータ) (2022-05-22T14:44:53Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Threat of Adversarial Attacks on Deep Learning in Computer Vision:
Survey II [86.51135909513047]
ディープラーニングは、予測を操作できる敵攻撃に対して脆弱である。
本稿では,ディープラーニングに対する敵対的攻撃におけるコンピュータビジョンコミュニティの貢献を概観する。
この領域では、非専門家に技術的な用語の定義を提供する。
論文 参考訳(メタデータ) (2021-08-01T08:54:47Z) - SoK: The Faults in our ASRs: An Overview of Attacks against Automatic
Speech Recognition and Speaker Identification Systems [28.635467696564703]
音声と話者システムのエンドツーエンドアーキテクチャは、画像空間のそれとはかなり異なる攻撃と防御を行うことを示す。
そして、これらのモデルに対する攻撃はほとんど普遍的に転送できないことを実験的に実証した。
論文 参考訳(メタデータ) (2020-07-13T18:52:25Z) - Exploring Filterbank Learning for Keyword Spotting [27.319236923928205]
本稿ではキーワードスポッティングのためのフィルタバンク学習について検討する。
パワースペクトル領域におけるフィルタバンク行列学習と、精神音響的に動機付けられたガンマチャープフィルタバンクのパラメータ学習の2つの手法について検討した。
実験結果から,学習したフィルタバンクと手作り音声の特徴との間には,KWSの精度において統計的に有意な差はないことが明らかとなった。
論文 参考訳(メタデータ) (2020-05-30T08:11:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。