論文の概要: Error Analysis in a Modular Meeting Transcription System
- arxiv url: http://arxiv.org/abs/2509.10143v1
- Date: Fri, 12 Sep 2025 11:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.06083
- Title: Error Analysis in a Modular Meeting Transcription System
- Title(参考訳): モジュール会議記録システムにおける誤り解析
- Authors: Peter Vieting, Simon Berger, Thilo von Neumann, Christoph Boeddeker, Ralf Schlüter, Reinhold Haeb-Umbach,
- Abstract要約: 主話者のみが活動している地域では,クロスチャネルに重大な漏洩があることが示されている。
その結果は、LibriSpeechデータのみの認識モジュールをトレーニングするシステムの中で、LibriCSSの最先端のパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 25.48535862608799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meeting transcription is a field of high relevance and remarkable progress in recent years. Still, challenges remain that limit its performance. In this work, we extend a previously proposed framework for analyzing leakage in speech separation with proper sensitivity to temporal locality. We show that there is significant leakage to the cross channel in areas where only the primary speaker is active. At the same time, the results demonstrate that this does not affect the final performance much as these leaked parts are largely ignored by the voice activity detection (VAD). Furthermore, different segmentations are compared showing that advanced diarization approaches are able to reduce the gap to oracle segmentation by a third compared to a simple energy-based VAD. We additionally reveal what factors contribute to the remaining difference. The results represent state-of-the-art performance on LibriCSS among systems that train the recognition module on LibriSpeech data only.
- Abstract(参考訳): 会合の書き起こしは近年、高い関連性と顕著な進歩の分野である。
それでも、パフォーマンスを制限している課題は残る。
本研究では,音声分離における漏洩を時間的局所性に対して適切な感度で解析する枠組みを拡張した。
主話者のみが活動している地域では,クロスチャネルに重大な漏洩があることが示されている。
同時に,これらの漏洩部分は音声活動検出(VAD)によって無視されるため,最終的な性能には影響しないことが示された。
さらに、異なるセグメンテーションを比較すると、高度なダイアリゼーションアプローチは、単純なエネルギーベースのVADと比較して、オラクルセグメンテーションへのギャップを3分の1減らすことができる。
さらに、残りの違いにどのような要因が寄与するかを明らかにします。
その結果は、LibriSpeechデータのみの認識モジュールをトレーニングするシステムの中で、LibriCSSの最先端のパフォーマンスを示している。
関連論文リスト
- Beyond Transcripts: A Renewed Perspective on Audio Chaptering [66.61445564139052]
音声のみのアーキテクチャ(AudioSeg)は,長文音声をコヒーレントなセクションに分割するためのテキストベースのアプローチよりも優れていることを示す。
YTSegの実験では、AudioSegはテキストベースのアプローチを著しく上回り、停止は最大の音響的利得をもたらし、MLLMは文脈長と弱命令によって制限される。
論文 参考訳(メタデータ) (2026-02-09T18:28:10Z) - Towards Low-Latency Tracking of Multiple Speakers With Short-Context Speaker Embeddings [52.985061676464554]
短文脈話者埋め込み抽出のための知識蒸留に基づく学習手法を提案する。
我々は、ビームフォーミングを用いて興味ある話者の空間情報を活用し、重複を低減する。
以上の結果から,本モデルは短文埋め込み抽出に有効であり,重なりやすいことが示唆された。
論文 参考訳(メタデータ) (2025-08-18T11:32:13Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations [13.020158123538138]
音声分離誘導ダイアリゼーション(SSGD)は、まず話者を分離し、各分離ストリームに音声活動検出(VAD)を適用することでダイアリゼーションを行う。
3つの最先端音声分離(SSep)アルゴリズムを検討し,その性能をオンラインおよびオフラインのシナリオで検討する。
我々は,CALLHOMEの8.8%のDORを実現し,現在の最先端のニューラルダイアリゼーションモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-03-21T16:33:56Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - A Study on Robustness to Perturbations for Representations of
Environmental Sound [16.361059909912758]
モノフォニック(UrbanSound8K)およびポリフォニック(SONYC UST)データセット上で,YAMNetとOpenL$3$の2つの埋め込みを評価した。
本研究では,音波信号に摂動を注入することによりチャネル効果を模倣し,新しい埋め込みのシフトを3つの距離で測定する。
論文 参考訳(メタデータ) (2022-03-20T01:04:38Z) - Utterance partitioning for speaker recognition: an experimental review
and analysis with new findings under GMM-SVM framework [0.23090185577016442]
本研究は,GMM-SVMに基づく話者認識システムについて,持続的変動が存在する場合の詳細な実験的レビューと解析を行う。
この研究の主な焦点は発話分割(UP)であり、これは時間的変動問題を補うためによく使われる戦略である。
論文 参考訳(メタデータ) (2021-05-25T07:50:09Z) - End-to-End Speech Recognition and Disfluency Removal [15.910282983166024]
本稿では,エンド・ツー・エンド音声認識とディフルエンシ除去の課題について検討する。
エンド・ツー・エンドのモデルでは、フロート・トランスクリプトを直接生成できることが示されている。
統合型ASRモデルと非フルエンシモデルの評価に使用できる2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2020-09-22T03:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。