論文の概要: Tiny Noise-Robust Voice Activity Detector for Voice Assistants
- arxiv url: http://arxiv.org/abs/2507.22157v1
- Date: Tue, 29 Jul 2025 18:44:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.809374
- Title: Tiny Noise-Robust Voice Activity Detector for Voice Assistants
- Title(参考訳): 音声アシスタントのためのTiny Noise-Robust Voice Activity Detector
- Authors: Hamed Jafarzadeh Asl, Mahsa Ghazvini Nejad, Amin Edraki, Masoud Asgharian, Vahid Partovi Nia,
- Abstract要約: 背景雑音の存在下での音声活動検出(VAD)は、音声処理において難しい問題である。
本稿では,背景雑音に対処するデータ前処理および後処理モジュールを付加した軽量なVADを含むノイズローバストVADを提案する。
このアプローチはノイズの多い環境でのVAD精度を大幅に向上させ、より大きなモデルも微調整も必要としない。
- 参考スコア(独自算出の注目度): 6.670095528106346
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Voice Activity Detection (VAD) in the presence of background noise remains a challenging problem in speech processing. Accurate VAD is essential in automatic speech recognition, voice-to-text, conversational agents, etc, where noise can severely degrade the performance. A modern application includes the voice assistant, specially mounted on Artificial Intelligence of Things (AIoT) devices such as cell phones, smart glasses, earbuds, etc, where the voice signal includes background noise. Therefore, VAD modules must remain light-weight due to their practical on-device limitation. The existing models often struggle with low signal-to-noise ratios across diverse acoustic environments. A simple VAD often detects human voice in a clean environment, but struggles to detect the human voice in noisy conditions. We propose a noise-robust VAD that comprises a light-weight VAD, with data pre-processing and post-processing added modules to handle the background noise. This approach significantly enhances the VAD accuracy in noisy environments and requires neither a larger model, nor fine-tuning. Experimental results demonstrate that our approach achieves a notable improvement compared to baselines, particularly in environments with high background noise interference. This modified VAD additionally improving clean speech detection.
- Abstract(参考訳): 背景雑音の存在下での音声活動検出(VAD)は、音声処理において難しい問題である。
ノイズが性能を著しく低下させるような音声認識、音声テキスト、会話エージェントなどにおいて、正確なVADは不可欠である。
最新のアプリケーションには、携帯電話、スマートグラス、イヤホンなどの人工知能(AIoT)デバイスに搭載された音声アシスタントが含まれており、音声信号には背景ノイズが含まれている。
したがって、VADモジュールは実際のデバイス上の制限のため軽量でなければならない。
既存のモデルは様々な音響環境における低信号対雑音比に苦しむことが多い。
単純なVADは、クリーンな環境では人間の声を検出するが、ノイズの多い環境では人間の声を検出するのに苦労する。
本稿では,背景雑音に対処するデータ前処理および後処理モジュールを付加した軽量なVADを含むノイズローバストVADを提案する。
このアプローチはノイズの多い環境でのVAD精度を大幅に向上させ、より大きなモデルも微調整も必要としない。
実験により, 背景雑音の強い環境において, ベースラインに比べて顕著な改善が得られた。
この改良されたVADにより、クリーンな音声検出が改善された。
関連論文リスト
- Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining [21.26555178371168]
ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。
ディープニューラルネットワークベースのモデルは、このタスクで優れたパフォーマンスを示している。
雑音条件下でのTS-VAD性能を向上させるための、因果的自己監視学習(SSL)事前トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-06T18:00:14Z) - Robust Active Speaker Detection in Noisy Environments [29.785749048315616]
雑音環境下での頑健なアクティブ話者検出(rASD)問題を定式化する。
既存のASDアプローチは、音声と視覚の両モードを利用するが、周囲の環境における非音声は、性能に悪影響を及ぼす可能性がある。
雑音のない音声特徴を学習するためのガイダンスとして,音声・視覚的音声分離を利用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T20:52:30Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant
Environments [76.98764900754111]
音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。
我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。
自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。
論文 参考訳(メタデータ) (2021-06-16T15:47:06Z) - Variational Autoencoder for Speech Enhancement with a Noise-Aware
Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。
提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文 参考訳(メタデータ) (2021-02-17T11:40:42Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。