論文の概要: Assessing the Generalization Gap of Learning-Based Speech Enhancement
Systems in Noisy and Reverberant Environments
- arxiv url: http://arxiv.org/abs/2309.06183v2
- Date: Wed, 8 Nov 2023 08:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 19:12:10.548563
- Title: Assessing the Generalization Gap of Learning-Based Speech Enhancement
Systems in Noisy and Reverberant Environments
- Title(参考訳): 雑音・残響環境における学習型音声強調システムの一般化ギャップの評価
- Authors: Philippe Gonzalez, Tommy Sonne Alstr{\o}m, Tobias May
- Abstract要約: 目に見えない条件への一般化は、通常、新しい音声、雑音または部屋のインパルス応答データベースでシステムをテストすることで評価される。
本研究では,テスト条件に基づいてトレーニングした参照モデルを用いた一般化評価フレームワークを提案する。
提案手法を用いて,フィードフォワードニューラルネットワーク(FFNN),ConvTasNet,DCCRN,MANNERの一般化ポテンシャルを評価する。
- 参考スコア(独自算出の注目度): 0.7366405857677227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The acoustic variability of noisy and reverberant speech mixtures is
influenced by multiple factors, such as the spectro-temporal characteristics of
the target speaker and the interfering noise, the signal-to-noise ratio (SNR)
and the room characteristics. This large variability poses a major challenge
for learning-based speech enhancement systems, since a mismatch between the
training and testing conditions can substantially reduce the performance of the
system. Generalization to unseen conditions is typically assessed by testing
the system with a new speech, noise or binaural room impulse response (BRIR)
database different from the one used during training. However, the difficulty
of the speech enhancement task can change across databases, which can
substantially influence the results. The present study introduces a
generalization assessment framework that uses a reference model trained on the
test condition, such that it can be used as a proxy for the difficulty of the
test condition. This allows to disentangle the effect of the change in task
difficulty from the effect of dealing with new data, and thus to define a new
measure of generalization performance termed the generalization gap. The
procedure is repeated in a cross-validation fashion by cycling through multiple
speech, noise, and BRIR databases to accurately estimate the generalization
gap. The proposed framework is applied to evaluate the generalization potential
of a feedforward neural network (FFNN), Conv-TasNet, DCCRN and MANNER. We find
that for all models, the performance degrades the most in speech mismatches,
while good noise and room generalization can be achieved by training on
multiple databases. Moreover, while recent models show higher performance in
matched conditions, their performance substantially decreases in mismatched
conditions and can become inferior to that of the FFNN-based system.
- Abstract(参考訳): 話者のスペクトル時間特性や干渉雑音,信号対雑音比(SNR),室内特性など,雑音と残響の混合音の音響的変動は,複数の要因に影響される。
訓練条件とテスト条件のミスマッチがシステムの性能を大幅に低下させるので、この大きな変動は学習ベースの音声強調システムにとって大きな課題となる。
目に見えない条件への一般化は、訓練中に使用するものと異なる新しい音声、雑音、バイノーラルルームインパルス応答(BRIR)データベースでシステムをテストすることで評価される。
しかし、音声強調作業の難しさはデータベース間で変化し、結果に大きな影響を及ぼす可能性がある。
本研究は,テスト条件に基づいてトレーニングされた参照モデルを用いて,テスト条件の難易度をプロキシとして使用できる一般化評価フレームワークを提案する。
これにより、新しいデータを扱う効果からタスクの難易度の変化の影響を取り除き、一般化ギャップ(generalization gap)と呼ばれる新しい一般化性能尺度を定義することができる。
一般化ギャップを正確に推定するために、複数の音声、ノイズ、brirデータベースをサイクリングし、クロスバリデーション方式で繰り返す。
提案手法を用いて、フィードフォワードニューラルネットワーク(FFNN)、Conv-TasNet、DCCRN、MANNERの一般化ポテンシャルを評価する。
すべてのモデルにおいて、高いノイズと部屋の一般化は複数のデータベースでトレーニングすることで達成できるが、パフォーマンスは音声ミスマッチで最も劣化する。
さらに,近年のモデルでは一致条件では性能が向上するが,不一致条件では性能が著しく低下し,FFNN方式よりも劣る可能性がある。
関連論文リスト
- On the Condition Monitoring of Bolted Joints through Acoustic Emission and Deep Transfer Learning: Generalization, Ordinal Loss and Super-Convergence [0.12289361708127876]
本稿では, 畳み込みニューラルネットワーク(CNN)を用いた深部伝達学習を用いて, 音響放射を用いたボルト付き関節のモニタリングを行う。
3本のボルトで接続された2本の細いビームからなる構造であるORION-AEベンチマークを用いて,本手法の性能評価を行った。
論文 参考訳(メタデータ) (2024-05-29T13:07:21Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Objective and subjective evaluation of speech enhancement methods in the UDASE task of the 7th CHiME challenge [19.810337081901178]
クリーン音声とノイズ信号の混合を人工的に生成し,音声強調のための教師付きモデルを訓練する。
この相違は、テストドメインが合成トレーニングドメインと大きく異なる場合、性能が低下する可能性がある。
第7回CiMEチャレンジのUDASEタスクは、テスト領域からの現実的なノイズの多い音声記録を活用することを目的としている。
論文 参考訳(メタデータ) (2024-02-02T13:45:42Z) - Diffusion-Based Speech Enhancement in Matched and Mismatched Conditions
Using a Heun-Based Sampler [16.13996677489119]
拡散モデルは、最近音声強調にうまく適用された新しい生成モデルである。
先行研究は、最先端の差別モデルと比較して、不一致条件下での優れた性能を実証している。
提案システムは,複数のデータベースをトレーニングに利用することにより,一致条件と一致条件の双方において,最先端の識別モデルよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-12-05T11:40:38Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - MOSRA: Joint Mean Opinion Score and Room Acoustics Speech Quality
Assessment [12.144133923535714]
本稿では,非侵入的多次元音声品質指標であるMOSRAについて述べる。
室内音響パラメータと音声品質の総合平均評価スコア(MOS)を同時に予測することができる。
また,この共同学習手法により,室内音響のブラインド推定が向上することを示す。
論文 参考訳(メタデータ) (2022-04-04T09:38:15Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。