論文の概要: Benchmarking Diarization Models
- arxiv url: http://arxiv.org/abs/2509.26177v1
- Date: Tue, 30 Sep 2025 12:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.537147
- Title: Benchmarking Diarization Models
- Title(参考訳): ダイアリゼーションモデルのベンチマーク
- Authors: Luca A. Lanzendörfer, Florian Grötschla, Cesare Blaser, Roger Wattenhofer,
- Abstract要約: 我々は、複数の言語と音響条件にまたがる4つのダイアリゼーションデータセットに対して、最先端のダイアリゼーションモデル5つを評価する。
PyannoteAI は 11.2% DER で最高のパフォーマンスを達成し、DiariZen は 13.3% DER で競争力のあるオープンソースの代替手段を提供する。
故障事例を解析すると,ダイアリゼーションエラーの主な原因は音声セグメントの欠落と話者の混乱にあることがわかった。
- 参考スコア(独自算出の注目度): 38.40457780873775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker diarization is the task of partitioning audio into segments according to speaker identity, answering the question of "who spoke when" in multi-speaker conversation recordings. While diarization is an essential task for many downstream applications, it remains an unsolved problem. Errors in diarization propagate to downstream systems and cause wide-ranging failures. To this end, we examine exact failure modes by evaluating five state-of-the-art diarization models, across four diarization datasets spanning multiple languages and acoustic conditions. The evaluation datasets consist of 196.6 hours of multilingual audio, including English, Mandarin, German, Japanese, and Spanish. Overall, we find that PyannoteAI achieves the best performance at 11.2% DER, while DiariZen provides a competitive open-source alternative at 13.3% DER. When analyzing failure cases, we find that the primary cause of diarization errors stem from missed speech segments followed by speaker confusion, especially in high-speaker count settings.
- Abstract(参考訳): 話者ダイアリゼーション(英: Speaker Diarization)とは、話者の同一性に応じて音声をセグメントに分割し、マルチ話者会話記録における「誰がいつ話したか」という問いに答えるタスクである。
ダイアリゼーションは多くの下流アプリケーションにとって必須のタスクであるが、未解決の問題である。
ダイアリゼーションのエラーは下流のシステムに伝播し、広範囲の障害を引き起こす。
この目的のために,複数の言語と音響条件にまたがる4つのダイアリゼーションデータセットを用いて,最先端のダイアリゼーションモデル5つを評価することで,正確な故障モードを検証した。
評価データセットは英語、マンダリン、ドイツ語、日本語、スペイン語を含む196.6時間の多言語音声で構成されている。
全体として、PyannoteAIは11.2% DERで最高のパフォーマンスを達成しているのに対し、DiariZenは13.3% DERで競争力のあるオープンソースの代替手段を提供している。
故障事例を解析した結果、特に高話者数設定において、ダイアリゼーションエラーの主な原因は音声セグメントの欠落と話者の混乱に起因することがわかった。
関連論文リスト
- Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings [0.0]
我々は,Whisper自動音声認識モデルを多言語データに基づいて事前訓練したフレームワークであるWSI(Whisper Speaker Identification)を提案する。
本稿では,Whisper言語に依存しない音響表現の活用により,多様な言語にまたがる話者を効果的に区別する。
論文 参考訳(メタデータ) (2025-03-13T15:11:28Z) - Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、最近、人間との直接の音声交換を可能にする音声対話機能をアンロックした。
オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
ADU-Benchには、LALMの評価のための2万以上のオープンエンドオーディオダイアログが含まれている。
論文 参考訳(メタデータ) (2024-12-06T16:34:15Z) - Efficiently Identifying Low-Quality Language Subsets in Multilingual Datasets: A Case Study on a Large-Scale Multilingual Audio Dataset [13.041053110012246]
このような信頼できないサブセットを特定するための統計的テストであるPreference Proportion Testを導入する。
音素書き起こしの下流タスクのトレーニングモデルで、この低品質データをフィルタリングすることで、大きなメリットが得られます。
論文 参考訳(メタデータ) (2024-10-05T21:41:49Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Don't Discard Fixed-Window Audio Segmentation in Speech-to-Text
Translation [10.799623536095226]
完全な発話が話される前に、モデルが翻訳を開始する必要があるオンライン音声言語翻訳では、ほとんどの以前の研究はセグメント化の問題を無視している。
オフライン・オンライン両方のセグメンテーションにおけるセグメンテーションエラーやセグメンテーション戦略に対するモデルの堅牢性を改善するための様々な手法を比較した。
5つの異なる言語対についての知見から, 簡単な固定ウィンドウ音声セグメント化が, 適切な条件で驚くほど良好に動作できることが示唆された。
論文 参考訳(メタデータ) (2022-10-24T16:06:33Z) - Quantifying Language Variation Acoustically with Few Resources [4.162663632560141]
ディープ・アコースティック・モデルは低リソース言語に転送する言語情報を学んだかもしれない。
4つの言語(地域)から100以上の方言に対して平均10語以上の発音差を計算する。
その結果,音響モデルは音素の書き起こしを必要とせずに(従来の)書き起こし方式よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-05T15:00:56Z) - ADIMA: Abuse Detection In Multilingual Audio [28.64185949388967]
音声テキストにおける乱用コンテンツ検出は、音声認識(ASR)を実行し、自然言語処理の進歩を活用することで対処することができる。
ADIMAは,言語学的に多様であり,倫理的にも特徴的であり,注釈付きかつバランスの取れた多言語多義性検出音声データセットである。
論文 参考訳(メタデータ) (2022-02-16T11:09:50Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。