論文の概要: Robustness of Speech Separation Models for Similar-pitch Speakers
- arxiv url: http://arxiv.org/abs/2407.15749v1
- Date: Mon, 22 Jul 2024 15:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 14:11:00.969428
- Title: Robustness of Speech Separation Models for Similar-pitch Speakers
- Title(参考訳): 類似ピッチ話者に対する音声分離モデルのロバスト性
- Authors: Bunlong Lay, Sebastian Zaczek, Kristina Tesch, Timo Gerkmann,
- Abstract要約: 単一チャンネル音声分離は,マルチスピーカ環境における音声認識システムを強化する上で重要な課題である。
本稿では,話者間のピッチ差が最小限である場合における最先端ニューラルネットワークモデルのロバスト性について検討する。
- 参考スコア(独自算出の注目度): 14.941946672578863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-channel speech separation is a crucial task for enhancing speech recognition systems in multi-speaker environments. This paper investigates the robustness of state-of-the-art Neural Network models in scenarios where the pitch differences between speakers are minimal. Building on earlier findings by Ditter and Gerkmann, which identified a significant performance drop for the 2018 Chimera++ under similar-pitch conditions, our study extends the analysis to more recent and sophisticated Neural Network models. Our experiments reveal that modern models have substantially reduced the performance gap for matched training and testing conditions. However, a substantial performance gap persists under mismatched conditions, with models performing well for large pitch differences but showing worse performance if the speakers' pitches are similar. These findings motivate further research into the generalizability of speech separation models to similar-pitch speakers and unseen data.
- Abstract(参考訳): 単一チャンネル音声分離は,マルチスピーカ環境における音声認識システムを強化する上で重要な課題である。
本稿では,話者間のピッチ差が最小限である場合における最先端ニューラルネットワークモデルのロバスト性について検討する。
Ditter氏とGerkmann氏による以前の発見に基づいて、同様のピッチ条件下での2018 Chimera++の大幅なパフォーマンス低下を確認した上で、我々の研究は、分析をより最新の洗練されたニューラルネットワークモデルにまで拡張した。
実験の結果,現代のモデルでは,一致したトレーニングとテスト条件のパフォーマンスギャップが大幅に減少していることがわかった。
しかし、大きなピッチ差に対してモデルの性能は良好であるが、話者のピッチが類似している場合、性能は低下する。
これらの知見は、類似ピッチ話者や見当たらないデータに対する音声分離モデルの一般化可能性に関するさらなる研究を動機付けている。
関連論文リスト
- Diffusion-Based Speech Enhancement in Matched and Mismatched Conditions
Using a Heun-Based Sampler [16.13996677489119]
拡散モデルは、最近音声強調にうまく適用された新しい生成モデルである。
先行研究は、最先端の差別モデルと比較して、不一致条件下での優れた性能を実証している。
提案システムは,複数のデータベースをトレーニングに利用することにより,一致条件と一致条件の双方において,最先端の識別モデルよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-12-05T11:40:38Z) - ELF: Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis [5.824018496599849]
多数の話者をモデル化する新しい手法を提案する。
訓練されたマルチスピーカーモデルのように、話者の全体的な特徴を詳細に表現することができる。
論文 参考訳(メタデータ) (2023-11-20T13:13:24Z) - Machine learning of network inference enhancement from noisy measurements [13.0533106097336]
観測された時系列データからネットワークを推定すると、ノード間の相互接続が明らかになる。
実世界のオープンケースを扱うネットワーク推論モデルは、パフォーマンスの大幅な低下を経験します。
モデルベースおよびモデルフリーなネットワーク推論モデルの能力を増幅するための、エレガントで効率的なモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T08:51:40Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Automatic Evaluation of Speaker Similarity [0.0]
本研究では,人間の知覚スコアと一致した話者類似度評価のための新しい自動評価手法を提案する。
実験の結果, 話者埋め込みから話者類似度MUSHRAスコアを0.96精度で予測し, 発話レベルでは0.78ピアソンスコアまで有意な相関関係を示すことができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T11:23:16Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - SepIt: Approaching a Single Channel Speech Separation Bound [99.19786288094596]
我々は、異なる話者の推定を反復的に改善するディープニューラルネットワーク、SepItを導入する。
幅広い実験において、SepItは2, 3, 5, 10人の話者に対して最先端のニューラルネットワークより優れている。
論文 参考訳(メタデータ) (2022-05-24T05:40:36Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。