論文の概要: Towards Measuring and Scoring Speaker Diarization Fairness
- arxiv url: http://arxiv.org/abs/2302.09991v1
- Date: Mon, 20 Feb 2023 14:07:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 15:14:42.802263
- Title: Towards Measuring and Scoring Speaker Diarization Fairness
- Title(参考訳): 話者ダイアリゼーションフェアネスの測定と評価に向けて
- Authors: Yannis Tevissen, J\'er\^ome Boudy, G\'erard Chollet, Fr\'ed\'eric
Petitpont
- Abstract要約: 本稿では,話者ダイアリゼーションの公平性を評価するためのプロトコルとスコアリング手法を提案する。
このプロトコルは、音声発話の大規模なデータセットに適用され、性別、年齢、話者のアクセント、音声文の長さに応じて話者ダイアリゼーションのパフォーマンスを報告する。
現状話者ダイアリゼーション法を適用した際, 性別や話者のアクセントによって誘発されるいくつかのバイアスが同定された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speaker diarization, or the task of finding "who spoke and when", is now used
in almost every speech processing application. Nevertheless, its fairness has
not yet been evaluated because there was no protocol to study its biases one by
one. In this paper we propose a protocol and a scoring method designed to
evaluate speaker diarization fairness. This protocol is applied on a large
dataset of spoken utterances and report the performances of speaker diarization
depending on the gender, the age, the accent of the speaker and the length of
the spoken sentence. Some biases induced by the gender, or the accent of the
speaker were identified when we applied a state-of-the-art speaker diarization
method.
- Abstract(参考訳): 話者ダイアリゼーション(話者ダイアリゼーション)あるいは"誰がいつ話すか"を見つけるタスクが、現在ではほぼすべての音声処理アプリケーションで使用されている。
しかしながら、その公平性はまだ評価されていない。なぜなら、そのバイアスを一つずつ研究するプロトコルがなかったからである。
本稿では,話者ダイアリゼーションの公平性を評価するためのプロトコルとスコアリング手法を提案する。
このプロトコルは音声発話の大規模なデータセットに適用され、話者の性別、年齢、アクセント、発話の長さに応じて話者ダイアリゼーションのパフォーマンスが報告される。
現状話者ダイアリゼーション法を適用した際,性別や話者のアクセントによって誘発されるいくつかのバイアスを同定した。
関連論文リスト
- Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Exploring Speaker-Related Information in Spoken Language Understanding
for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。
AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2023-05-22T11:14:19Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。