論文の概要: Improving Generalization of Speech Separation in Real-World Scenarios: Strategies in Simulation, Optimization, and Evaluation
- arxiv url: http://arxiv.org/abs/2408.16126v1
- Date: Wed, 28 Aug 2024 20:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 15:44:44.842177
- Title: Improving Generalization of Speech Separation in Real-World Scenarios: Strategies in Simulation, Optimization, and Evaluation
- Title(参考訳): 実世界のシナリオにおける音声分離の一般化の改善:シミュレーション・最適化・評価の戦略
- Authors: Ke Chen, Jiaqi Su, Taylor Berg-Kirkpatrick, Shlomo Dubnov, Zeyu Jin,
- Abstract要約: 本研究では,様々な環境やコンテンツから多様なトレーニングデータを生成する新しいデータシミュレーションパイプラインを提案する。
一般的な音声分離モデルの品質向上のための新しい訓練パラダイムを提案する。
- 参考スコア(独自算出の注目度): 45.76004686788507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving robust speech separation for overlapping speakers in various acoustic environments with noise and reverberation remains an open challenge. Although existing datasets are available to train separators for specific scenarios, they do not effectively generalize across diverse real-world scenarios. In this paper, we present a novel data simulation pipeline that produces diverse training data from a range of acoustic environments and content, and propose new training paradigms to improve quality of a general speech separation model. Specifically, we first introduce AC-SIM, a data simulation pipeline that incorporates broad variations in both content and acoustics. Then we integrate multiple training objectives into the permutation invariant training (PIT) to enhance separation quality and generalization of the trained model. Finally, we conduct comprehensive objective and human listening experiments across separation architectures and benchmarks to validate our methods, demonstrating substantial improvement of generalization on both non-homologous and real-world test sets.
- Abstract(参考訳): 雑音や残響を伴う様々な音響環境における重なり合う話者に対する頑健な音声分離を実現することは、未解決の課題である。
既存のデータセットは特定のシナリオのためにセパレータをトレーニングするために利用できるが、様々な現実世界のシナリオを効果的に一般化することはできない。
本稿では,様々な音響環境とコンテンツから多様なトレーニングデータを生成する新しいデータシミュレーションパイプラインを提案し,一般的な音声分離モデルの品質向上のための新たなトレーニングパラダイムを提案する。
具体的には、まず、コンテンツと音響の両方に幅広いバリエーションを組み込んだデータシミュレーションパイプラインであるAC-SIMを紹介する。
次に、複数のトレーニング目標を置換不変トレーニング(PIT)に統合し、トレーニングモデルの分離品質と一般化を向上する。
最後に、分離アーキテクチャとベンチマークをまたいだ包括的客観的および人的聴取実験を行い、本手法の検証を行い、非ホモロジーおよび実世界のテストセットにおける一般化の大幅な改善を実証した。
関連論文リスト
- Developing an Effective Training Dataset to Enhance the Performance of AI-based Speaker Separation Systems [0.3277163122167434]
本稿では,各話者に対して,混合信号と対応する接地真実を含む現実的な学習セットを構築するための新しい手法を提案する。
実感混合における話者分離精度向上のためのSI-SDR(Scale Invariant Signal to Distortion Ratio)を1.65dB改善した。
論文 参考訳(メタデータ) (2024-11-13T06:55:18Z) - UMSE: Unified Multi-scenario Summarization Evaluation [52.60867881867428]
要約品質評価は、テキスト要約における非自明なタスクである。
統一多シナリオ要約評価モデル(UMSE)を提案する。
UMSEは3つの評価シナリオで使用できる能力に係わる最初の統合要約評価フレームワークである。
論文 参考訳(メタデータ) (2023-05-26T12:54:44Z) - Multi-source Domain Adaptation for Text-independent Forensic Speaker
Recognition [36.83842373791537]
話者認識システムを新しい環境に適応させることは、良好な性能モデルを改善するために広く使われている手法である。
従来の研究では、複数の音響領域からトレーニングデータを収集するより実践的なシナリオを無視した単一ドメイン適応に焦点が当てられていた。
複数の音響領域にまたがる適応性能を高めるために,3つの新しい適応手法を提案する。
論文 参考訳(メタデータ) (2022-11-17T22:11:25Z) - Adaptive Multi-Corpora Language Model Training for Speech Recognition [13.067901680326932]
本稿では,学習過程に沿って各コーパスのサンプリング確率を動的に学習・調整する適応型多コーパス学習アルゴリズムを提案する。
静的サンプリング戦略のベースラインと比較すると,提案手法は顕著な改善をもたらす。
論文 参考訳(メタデータ) (2022-11-09T06:54:50Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Heterogeneous Target Speech Separation [52.05046029743995]
我々は,非相互排他的概念を用いて興味のあるソースを区別できる単一チャネルターゲットソース分離のための新しいパラダイムを提案する。
提案する異種分離フレームワークは,分散シフトが大きいデータセットをシームレスに利用することができる。
論文 参考訳(メタデータ) (2022-04-07T17:14:20Z) - MetaAudio: A Few-Shot Audio Classification Benchmark [2.294014185517203]
この研究は、画像ベースのベンチマークへの依存を軽減することを目的として、初めて包括的で公開され、完全に再現可能なオーディオベースの代替手段を提供する。
7つの音声データセットにおいて,様々な手法の複数ショットの分類性能を比較した。
実験では,MAMLやMeta-Curvatureのような勾配に基づくメタ学習法が,測定法とベースライン法の両方で一貫して優れていた。
論文 参考訳(メタデータ) (2022-04-05T11:33:44Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Improving speech recognition models with small samples for air traffic
control systems [9.322392779428505]
本研究では, 小さなトレーニングサンプルの課題に対処すべく, 事前学習とトランスファー学習に基づく新しいトレーニング手法を提案する。
3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。
実験の結果,ASRの性能は3つのデータセットで大幅に向上した。
論文 参考訳(メタデータ) (2021-02-16T08:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。