論文の概要: Implicit Acoustic Echo Cancellation for Keyword Spotting and
Device-Directed Speech Detection
- arxiv url: http://arxiv.org/abs/2111.10639v1
- Date: Sat, 20 Nov 2021 17:21:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 13:10:49.584303
- Title: Implicit Acoustic Echo Cancellation for Keyword Spotting and
Device-Directed Speech Detection
- Title(参考訳): キーワードスポッティングとデバイス指向音声検出のための入射音響エコーキャンセラ
- Authors: Samuele Cornell, Thomas Balestri, Thibaud S\'en\'echal
- Abstract要約: 多くの音声対応のヒューマンマシンインタラクションシナリオでは、ユーザ音声はデバイスがオーディオを再生するときに重複する可能性がある。
そこで我々は,ニューラルネットワークをトレーニングし,参照マイクロホンチャネルからの付加情報を利用する暗黙の音響エコーキャンセリングフレームワークを提案する。
デバイス再生条件下でDDDタスクの偽リジェクト率を56%削減することを示す。
- 参考スコア(独自算出の注目度): 2.7393821783237184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many speech-enabled human-machine interaction scenarios, user speech can
overlap with the device playback audio. In these instances, the performance of
tasks such as keyword-spotting (KWS) and device-directed speech detection (DDD)
can degrade significantly. To address this problem, we propose an implicit
acoustic echo cancellation (iAEC) framework where a neural network is trained
to exploit the additional information from a reference microphone channel to
learn to ignore the interfering signal and improve detection performance. We
study this framework for the tasks of KWS and DDD on, respectively, an
augmented version of Google Speech Commands v2 and a real-world Alexa device
dataset. Notably, we show a $56\%$ reduction in false-reject rate for the DDD
task during device playback conditions. We also show comparable or superior
performance over a strong end-to-end neural echo cancellation + KWS baseline
for the KWS task with an order of magnitude less computational requirements.
- Abstract(参考訳): 多くの音声対応のヒューマンマシンインタラクションシナリオでは、ユーザの音声はデバイス再生オーディオと重複する可能性がある。
これらの例では、キーワードスポッティング(KWS)やデバイス指向音声検出(DDD)といったタスクのパフォーマンスが著しく低下する可能性がある。
この問題に対処するために,ニューラルネットワークが参照マイクロホンチャネルからの付加情報を活用して干渉信号を無視し,検出性能を向上させるために,暗黙の音響エコーキャンセリング(iAEC)フレームワークを提案する。
KWSとDDDのタスクに対して,Google Speech Commands v2の拡張バージョンと実世界のAlexaデバイスデータセットを用いて,このフレームワークについて検討する。
特に,デバイス再生条件下でのDDDタスクに対する偽リジェクト率の5,6\%の削減を示す。
また、KWSタスクに対して、強力なエンドツーエンドのニューラルエコーキャンセル+KWSベースラインよりも、桁違いに少ない計算要求で同等または優れた性能を示す。
関連論文リスト
- DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Robust Active Speaker Detection in Noisy Environments [29.785749048315616]
雑音環境下での頑健なアクティブ話者検出(rASD)問題を定式化する。
既存のASDアプローチは、音声と視覚の両モードを利用するが、周囲の環境における非音声は、性能に悪影響を及ぼす可能性がある。
雑音のない音声特徴を学習するためのガイダンスとして,音声・視覚的音声分離を利用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T20:52:30Z) - Multi-microphone Automatic Speech Segmentation in Meetings Based on
Circular Harmonics Features [0.0]
円形高調波領域(CH-DOA)の方向推定に基づく新しい空間的特徴セットを提案する。
AMIミーティングコーパスの実験では、CH-DOAは非活性化マイクロホンの場合の堅牢さを保ちながらセグメンテーションを改善することができる。
論文 参考訳(メタデータ) (2023-06-07T09:09:00Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。
また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。
その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T21:21:23Z) - EML Online Speech Activity Detection for the Fearless Steps Challenge
Phase-III [7.047338765733677]
本稿では、Fearless Steps Challengeの最新のフェーズにおけるオンラインアルゴリズムについて述べる。
提案アルゴリズムは教師なしと教師なしの両方で訓練することができる。
実験では、単一のCPUマシンを使用して、約0.002のリアルタイム係数を持つ開発データセットと評価データセットの両方で、競合する精度を示す。
論文 参考訳(メタデータ) (2021-06-21T12:55:51Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。