Fugu-MT 論文翻訳(概要): Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM

論文の概要: Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM

arxiv url: http://arxiv.org/abs/2505.23207v1
Date: Thu, 29 May 2025 07:47:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.750502
Title: Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM
Title（参考訳）: ロバスト重畳音声検出に向けて: WavLM を用いた話者認識のプログレッシブアプローチ
Authors: Zhaokai Sun, Li Zhang, Qing Wang, Pan Zhou, Lei Xie,
Abstract要約: 重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
参考スコア（独自算出の注目度）: 53.17360668423001
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Overlapping Speech Detection (OSD) aims to identify regions where multiple speakers overlap in a conversation, a critical challenge in multi-party speech processing. This work proposes a speaker-aware progressive OSD model that leverages a progressive training strategy to enhance the correlation between subtasks such as voice activity detection (VAD) and overlap detection. To improve acoustic representation, we explore the effectiveness of state-of-the-art self-supervised learning (SSL) models, including WavLM and wav2vec 2.0, while incorporating a speaker attention module to enrich features with frame-level speaker information. Experimental results show that the proposed method achieves state-of-the-art performance, with an F1 score of 82.76\% on the AMI test set, demonstrating its robustness and effectiveness in OSD.
Abstract（参考訳）: 重なり合う音声検出(OSD)は、会話において複数の話者が重複する領域を特定することを目的としている。本研究では,音声活動検出(VAD)や重なり検出などのサブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。音響表現を改善するため,WavLMやwav2vec 2.0を含む最先端の自己教師型学習(SSL)モデルの有効性を検討した。実験の結果,提案手法は, AMIテストセット上でのF1スコア82.76\%の最先端性能を実現し, OSDの堅牢性と有効性を示した。

関連論文リスト

Visual-Informed Speech Enhancement Using Attention-Based Beamforming [13.084978776817222]
視覚インフォームドニューラルビームフォーミングネットワーク(VI-NBFNet)を提案する。提案するネットワークは、マイクロホンアレイ信号処理と、マルチモーダル入力機能を用いたディープニューラルネットワーク(DNN)を統合している。注目機構を備えた教師付きエンドツーエンドビームフォーミングフレームワークを導入することで、静的および移動型スピーカの両方を扱うことを意図している。
論文参考訳（メタデータ） (2026-03-05T15:19:41Z)
Multi-Stage Speaker Diarization for Noisy Classrooms [1.4549461207028445]
本研究では,NvidiaのNeMoダイアリゼーションパイプラインを用いた多段ダイアリゼーションモデルの有効性を検討した。ダイアリゼーション精度に対する聴覚の影響を評価し,様々な音声活動検出モデルを比較した。また、フレームレベルのVAD予測と自動音声認識(ASR)ワードレベルのタイムスタンプを統合するハイブリッドVAD手法についても検討する。
論文参考訳（メタデータ） (2025-05-16T05:35:06Z)
Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。 AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文参考訳（メタデータ） (2021-10-14T12:32:40Z)
UniSpeech-SAT: Universal Speech Representation Learning with Speaker Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。 SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2021-10-12T05:43:30Z)
Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文参考訳（メタデータ） (2021-10-07T02:48:49Z)
Self-supervised Text-independent Speaker Verification using Prototypical Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文参考訳（メタデータ） (2020-12-13T23:23:39Z)
FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。 FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文参考訳（メタデータ） (2020-10-27T09:21:03Z)
Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文参考訳（メタデータ） (2020-05-20T01:14:23Z)
Target-Speaker Voice Activity Detection: a Novel Approach for Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。 TS-VADは各時間フレーム上の各話者の活動を直接予測する。 CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文参考訳（メタデータ） (2020-05-14T21:24:56Z)
Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文参考訳（メタデータ） (2020-01-14T20:03:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。