論文の概要: Robust Active Speaker Detection in Noisy Environments
- arxiv url: http://arxiv.org/abs/2403.19002v2
- Date: Sat, 30 Mar 2024 14:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 13:15:05.958591
- Title: Robust Active Speaker Detection in Noisy Environments
- Title(参考訳): 雑音環境におけるロバストアクティブ話者検出
- Authors: Siva Sai Nagender Vasireddy, Chenxu Zhang, Xiaohu Guo, Yapeng Tian,
- Abstract要約: 雑音環境下での頑健なアクティブ話者検出(rASD)問題を定式化する。
既存のASDアプローチは、音声と視覚の両モードを利用するが、周囲の環境における非音声は、性能に悪影響を及ぼす可能性がある。
雑音のない音声特徴を学習するためのガイダンスとして,音声・視覚的音声分離を利用した新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.785749048315616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the issue of active speaker detection (ASD) in noisy environments and formulates a robust active speaker detection (rASD) problem. Existing ASD approaches leverage both audio and visual modalities, but non-speech sounds in the surrounding environment can negatively impact performance. To overcome this, we propose a novel framework that utilizes audio-visual speech separation as guidance to learn noise-free audio features. These features are then utilized in an ASD model, and both tasks are jointly optimized in an end-to-end framework. Our proposed framework mitigates residual noise and audio quality reduction issues that can occur in a naive cascaded two-stage framework that directly uses separated speech for ASD, and enables the two tasks to be optimized simultaneously. To further enhance the robustness of the audio features and handle inherent speech noises, we propose a dynamic weighted loss approach to train the speech separator. We also collected a real-world noise audio dataset to facilitate investigations. Experiments demonstrate that non-speech audio noises significantly impact ASD models, and our proposed approach improves ASD performance in noisy environments. The framework is general and can be applied to different ASD approaches to improve their robustness. Our code, models, and data will be released.
- Abstract(参考訳): 本稿では,雑音環境における能動話者検出(ASD)の問題に対処し,頑健な能動話者検出(rASD)問題を定式化する。
既存のASDアプローチは、音声と視覚の両モードを利用するが、周囲の環境における非音声は、性能に悪影響を及ぼす可能性がある。
そこで本稿では,ノイズのない音声特徴を学習するためのガイダンスとして,音声と視覚の分離を利用した新しいフレームワークを提案する。
これらの機能はASDモデルで利用され、両方のタスクはエンドツーエンドのフレームワークで共同で最適化される。
提案フレームワークは,ASDの分離された音声を直接使用し,その2つのタスクを同時に最適化する,単純なケースケード2段階フレームワークにおいて発生する残雑音や音質の低下を緩和する。
音声特徴のロバスト性をさらに高め,固有の音声雑音に対処するために,音声分離器を訓練するための動的重み付き損失手法を提案する。
調査を容易にするために,実環境のノイズオーディオデータセットも収集した。
実験により、非音声雑音がASDモデルに大きく影響することを示し、提案手法は雑音環境下でのASD性能を改善する。
フレームワークは汎用的で、さまざまな ASD アプローチに適用して、堅牢性を改善することができる。
私たちのコード、モデル、データはリリースされます。
関連論文リスト
- DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - A Unified Deep Learning Framework for Short-Duration Speaker
Verification in Adverse Environments [16.91453126121351]
話者検証(SV)システムは、特に雑音や残響環境において、短い音声セグメントに対して堅牢であるべきである。
これら2つの要件を満たすため、機能ピラミッドモジュール(FPM)ベースのマルチスケールアグリゲーション(MSA)と自己適応型ソフトVAD(SAS-VAD)を導入する。
SV、VAD、SEモデルを統合されたディープラーニングフレームワークで組み合わせ、エンドツーエンドでネットワーク全体を共同でトレーニングします。
論文 参考訳(メタデータ) (2020-10-06T04:51:45Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。