論文の概要: Error Analysis in a Modular Meeting Transcription System
- arxiv url: http://arxiv.org/abs/2509.10143v1
- Date: Fri, 12 Sep 2025 11:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.06083
- Title: Error Analysis in a Modular Meeting Transcription System
- Title(参考訳): モジュール会議記録システムにおける誤り解析
- Authors: Peter Vieting, Simon Berger, Thilo von Neumann, Christoph Boeddeker, Ralf Schlüter, Reinhold Haeb-Umbach,
- Abstract要約: 主話者のみが活動している地域では,クロスチャネルに重大な漏洩があることが示されている。
その結果は、LibriSpeechデータのみの認識モジュールをトレーニングするシステムの中で、LibriCSSの最先端のパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 25.48535862608799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meeting transcription is a field of high relevance and remarkable progress in recent years. Still, challenges remain that limit its performance. In this work, we extend a previously proposed framework for analyzing leakage in speech separation with proper sensitivity to temporal locality. We show that there is significant leakage to the cross channel in areas where only the primary speaker is active. At the same time, the results demonstrate that this does not affect the final performance much as these leaked parts are largely ignored by the voice activity detection (VAD). Furthermore, different segmentations are compared showing that advanced diarization approaches are able to reduce the gap to oracle segmentation by a third compared to a simple energy-based VAD. We additionally reveal what factors contribute to the remaining difference. The results represent state-of-the-art performance on LibriCSS among systems that train the recognition module on LibriSpeech data only.
- Abstract(参考訳): 会合の書き起こしは近年、高い関連性と顕著な進歩の分野である。
それでも、パフォーマンスを制限している課題は残る。
本研究では,音声分離における漏洩を時間的局所性に対して適切な感度で解析する枠組みを拡張した。
主話者のみが活動している地域では,クロスチャネルに重大な漏洩があることが示されている。
同時に,これらの漏洩部分は音声活動検出(VAD)によって無視されるため,最終的な性能には影響しないことが示された。
さらに、異なるセグメンテーションを比較すると、高度なダイアリゼーションアプローチは、単純なエネルギーベースのVADと比較して、オラクルセグメンテーションへのギャップを3分の1減らすことができる。
さらに、残りの違いにどのような要因が寄与するかを明らかにします。
その結果は、LibriSpeechデータのみの認識モジュールをトレーニングするシステムの中で、LibriCSSの最先端のパフォーマンスを示している。
関連論文リスト
- $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations [13.020158123538138]
音声分離誘導ダイアリゼーション(SSGD)は、まず話者を分離し、各分離ストリームに音声活動検出(VAD)を適用することでダイアリゼーションを行う。
3つの最先端音声分離(SSep)アルゴリズムを検討し,その性能をオンラインおよびオフラインのシナリオで検討する。
我々は,CALLHOMEの8.8%のDORを実現し,現在の最先端のニューラルダイアリゼーションモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-03-21T16:33:56Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Utterance partitioning for speaker recognition: an experimental review
and analysis with new findings under GMM-SVM framework [0.23090185577016442]
本研究は,GMM-SVMに基づく話者認識システムについて,持続的変動が存在する場合の詳細な実験的レビューと解析を行う。
この研究の主な焦点は発話分割(UP)であり、これは時間的変動問題を補うためによく使われる戦略である。
論文 参考訳(メタデータ) (2021-05-25T07:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。