論文の概要: Partially Adaptive Multichannel Joint Reduction of Ego-noise and
Environmental Noise
- arxiv url: http://arxiv.org/abs/2303.15042v1
- Date: Mon, 27 Mar 2023 09:40:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 16:08:39.555369
- Title: Partially Adaptive Multichannel Joint Reduction of Ego-noise and
Environmental Noise
- Title(参考訳): エゴノイズと環境騒音の適応的多チャンネル連成低減
- Authors: Huajian Fang, Niklas Wittmer, Johannes Twiefel, Stefan Wermter and
Timo Gerkmann
- Abstract要約: エゴノワーズは主にロボットの内部モーターと関節によって引き起こされる。
本研究では,エゴノイズと環境騒音を協調的にモデル化する多チャンネル部分適応方式を提案する。
- 参考スコア(独自算出の注目度): 25.51080528855037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-robot interaction relies on a noise-robust audio processing module
capable of estimating target speech from audio recordings impacted by
environmental noise, as well as self-induced noise, so-called ego-noise. While
external ambient noise sources vary from environment to environment, ego-noise
is mainly caused by the internal motors and joints of a robot. Ego-noise and
environmental noise reduction are often decoupled, i.e., ego-noise reduction is
performed without considering environmental noise. Recently, a variational
autoencoder (VAE)-based speech model has been combined with a fully adaptive
non-negative matrix factorization (NMF) noise model to recover clean speech
under different environmental noise disturbances. However, its enhancement
performance is limited in adverse acoustic scenarios involving, e.g. ego-noise.
In this paper, we propose a multichannel partially adaptive scheme to jointly
model ego-noise and environmental noise utilizing the VAE-NMF framework, where
we take advantage of spatially and spectrally structured characteristics of
ego-noise by pre-training the ego-noise model, while retaining the ability to
adapt to unknown environmental noise. Experimental results show that our
proposed approach outperforms the methods based on a completely fixed scheme
and a fully adaptive scheme when ego-noise and environmental noise are present
simultaneously.
- Abstract(参考訳): 人間とロボットの相互作用は、環境騒音の影響を受ける音声録音からターゲット音声を推定できるノイズロバスト音声処理モジュールと、いわゆるエゴノイズ(ego-noise)に依存する。
外部の環境騒音源は環境によって異なるが、エゴノイズは主にロボットの内部モーターと関節によって引き起こされる。
エゴノイズと環境ノイズ低減はしばしば分離され、環境ノイズを考慮せずにエゴノイズ低減が行われる。
近年, 変動型オートエンコーダ(VAE)に基づく音声モデルと完全適応型非負行列分解(NMF)ノイズモデルを組み合わせることで, 環境騒音の異なるクリーン音声を復元する。
しかし、その強化性能は、例えばエゴノイズを含む有害な音響シナリオにおいて制限される。
本稿では,環境騒音に対する適応性を保ちつつ,エゴノイズモデルの事前学習を行い,エゴノイズの空間的・スペクトル的特徴を活用し,エゴノイズと環境雑音を協調的にモデル化するマルチチャネル部分適応スキームを提案する。
実験の結果, 提案手法は, エゴノイズと環境騒音が同時に発生する場合, 完全に固定されたスキームと完全適応スキームに基づく手法よりも優れていた。
関連論文リスト
- ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。
本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。
我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文 参考訳(メタデータ) (2024-04-24T21:30:01Z) - Robust Active Speaker Detection in Noisy Environments [29.785749048315616]
雑音環境下での頑健なアクティブ話者検出(rASD)問題を定式化する。
既存のASDアプローチは、音声と視覚の両モードを利用するが、周囲の環境における非音声は、性能に悪影響を及ぼす可能性がある。
雑音のない音声特徴を学習するためのガイダンスとして,音声・視覚的音声分離を利用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T20:52:30Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Realistic Noise Synthesis with Diffusion Models [68.48859665320828]
Deep Image Denoisingモデルは、しばしば高品質なパフォーマンスのために大量のトレーニングデータに依存します。
本稿では,拡散モデル,すなわちRealistic Noise Synthesize Diffusor(RNSD)を用いて現実的な雑音を合成する新しい手法を提案する。
RNSDは、より現実的なノイズや空間的相関を複数の周波数で生成できるような、ガイド付きマルチスケールコンテンツを組み込むことができる。
論文 参考訳(メタデータ) (2023-05-23T12:56:01Z) - A General Framework for Learning Procedural Audio Models of
Environmental Sounds [7.478290484139404]
本稿では,手続き型自動エンコーダ(ProVE)フレームワークについて,手続き型オーディオPAモデルを学習するための一般的なアプローチとして紹介する。
本稿では, ProVE モデルが従来の PA モデルと敵対的アプローチの両方を音響忠実度で上回ることを示す。
論文 参考訳(メタデータ) (2023-03-04T12:12:26Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional
Resampling [34.565077865854484]
ターゲット条件再サンプリング(NASTAR)を用いた雑音適応音声強調手法を提案する。
NASTARはフィードバック機構を使用して、ノイズ抽出器と検索モデルを介して適応的なトレーニングデータをシミュレートする。
実験結果から,NASTARは1つの雑音のある音声サンプルを効果的に使用して,SEモデルを目標条件に適応させることができることがわかった。
論文 参考訳(メタデータ) (2022-06-18T00:15:48Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Adaptive Multi-View ICA: Estimation of noise levels for optimal
inference [65.94843987207445]
Adaptive MultiView ICA (AVICA) はノイズの多いICAモデルであり、各ビューは共有された独立したソースと付加的なノイズの線形混合である。
AVICAは、その明示的なMMSE推定器により、他のICA法よりも優れたソース推定値が得られる。
実脳磁図(MEG)データでは,分解がサンプリングノイズに対する感度が低く,ノイズ分散推定が生物学的に妥当であることを示す。
論文 参考訳(メタデータ) (2021-02-22T13:10:12Z) - Variational Autoencoder for Speech Enhancement with a Noise-Aware
Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。
提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文 参考訳(メタデータ) (2021-02-17T11:40:42Z) - SERIL: Noise Adaptive Speech Enhancement using Regularization-based
Incremental Learning [36.24803486242198]
新しい環境への適応は、以前に学んだ環境を壊滅的に忘れてしまう可能性がある。
本稿では,正規化に基づくインクリメンタルラーニングSE(SERIL)戦略を提案する。
規則化制約により、パラメータは以前の騒音環境の知識を維持しつつ、新しい騒音環境に更新される。
論文 参考訳(メタデータ) (2020-05-24T14:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。