論文の概要: BER: Balanced Error Rate For Speaker Diarization
- arxiv url: http://arxiv.org/abs/2211.04304v1
- Date: Tue, 8 Nov 2022 15:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 17:05:28.757161
- Title: BER: Balanced Error Rate For Speaker Diarization
- Title(参考訳): BER:話者ダイアリゼーションのためのバランスの取れたエラー率
- Authors: Tao Liu and Kai Yu
- Abstract要約: 本稿では,話者のダイアリゼーションを評価するための平衡誤差率(BER)を提案する。
まず,接続されたサブグラフと適応IoU閾値を用いたセグメントレベルの誤差率(SER)を提案し,精度の高いセグメントマッチングを実現する。
第2に、ダイアリゼーションを統一的に評価するために、持続時間とセグメント間の話者固有の調和平均、次いで話者重み付き平均を採用する。
- 参考スコア(独自算出の注目度): 22.06525303590671
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: DER is the primary metric to evaluate diarization performance while facing a
dilemma: the errors in short utterances or segments tend to be overwhelmed by
longer ones. Short segments, e.g., `yes' or `no,' still have semantic
information. Besides, DER overlooks errors in less-talked speakers. Although
JER balances speaker errors, it still suffers from the same dilemma.
Considering all those aspects, duration error, segment error, and
speaker-weighted error constituting a complete diarization evaluation, we
propose a Balanced Error Rate (BER) to evaluate speaker diarization. First, we
propose a segment-level error rate (SER) via connected sub-graphs and adaptive
IoU threshold to get accurate segment matching. Second, to evaluate diarization
in a unified way, we adopt a speaker-specific harmonic mean between duration
and segment, followed by a speaker-weighted average. Third, we analyze our
metric via the modularized system, EEND, and the multi-modal method on real
datasets. SER and BER are publicly available at https://github.com/X-LANCE/BER.
- Abstract(参考訳): DERはジレンマに直面しながらダイアリゼーション性能を評価する主要な指標であり、短い発話やセグメントのエラーは長いものによって圧倒される傾向がある。
短いセグメント、例えば `yes' や `no,' は意味的情報を持っている。
さらにderは、話の少ない話者の誤りを見落としている。
jerは話者エラーのバランスを取るが、同じジレンマに苦しんでいる。
完全ダイアリゼーション評価を構成する全ての側面,時間誤差,セグメント誤差,話者重み付け誤差を考慮し,話者ダイアリゼーションを評価するための平衡誤差レート(BER)を提案する。
まず,接続されたサブグラフと適応IoU閾値を用いたセグメントレベルの誤差率(SER)を提案し,精度の高いセグメントマッチングを実現する。
第2に、ダイアリゼーションを統一的に評価するために、持続時間とセグメント間の話者固有の調和平均、次いで話者重み付き平均を採用する。
第3に,モジュール化システム,eend,マルチモーダルメソッドを用いて,実データセット上で測定値を分析する。
SERとBERはhttps://github.com/X-LANCE/BERで公開されている。
関連論文リスト
- Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。
提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文 参考訳(メタデータ) (2024-08-30T11:02:17Z) - Lexical Speaker Error Correction: Leveraging Language Models for Speaker
Diarization Error Correction [4.409889336732851]
話者ダイアリゼーション (SD) は通常、認識された単語に話者ラベルを登録するために自動音声認識 (ASR) システムで使用される。
このアプローチは、特に話者回転と話者重複領域に関する話者誤差を引き起こす可能性がある。
語彙情報を用いた第2パス話者誤り訂正システムを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:47:41Z) - ASR Error Detection via Audio-Transcript entailment [1.3750624267664155]
音声書き起こしエンターメントを用いたASR誤り検出のためのエンドツーエンドアプローチを提案する。
提案モデルでは,音響エンコーダと言語エンコーダを用いて,それぞれ音声と転写をモデル化する。
提案モデルでは,すべての転写誤りに対して26.2%,医学的誤りに対して23%の分類誤り率(CER)を達成し,それぞれ12%と15.4%の強い基準値を改善することができた。
論文 参考訳(メタデータ) (2022-07-22T02:47:15Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z) - Meta-Learning for Short Utterance Speaker Recognition with Imbalance
Length Pairs [65.28795726837386]
不均衡長ペアのためのメタラーニングフレームワークを提案する。
長い発話のサポートセットと様々な長さの短い発話のクエリセットでトレーニングする。
これら2つの学習スキームを組み合わせることで、既存の最先端話者検証モデルよりも優れた性能が得られる。
論文 参考訳(メタデータ) (2020-04-06T17:53:14Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。