論文の概要: The Conversational Short-phrase Speaker Diarization (CSSD) Task:
Dataset, Evaluation Metric and Baselines
- arxiv url: http://arxiv.org/abs/2208.08042v1
- Date: Wed, 17 Aug 2022 03:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 13:15:34.554526
- Title: The Conversational Short-phrase Speaker Diarization (CSSD) Task:
Dataset, Evaluation Metric and Baselines
- Title(参考訳): 会話型短文話者ダイアリゼーション(cssd)タスク:データセット、評価基準、ベースライン
- Authors: Gaofeng Cheng, Yifan Chen, Runyan Yang, Qingxuan Li, Zehui Yang,
Lingxuan Ye, Pengyuan Zhang, Qingqing Zhang, Lei Xie, Yanmin Qian, Kong Aik
Lee, Yonghong Yan
- Abstract要約: 本稿では,会話短文話者ダイアリゼーション(CSSD)タスクについて述べる。
トレーニングとテストのデータセット、評価基準、ベースラインで構成されている。
距離の面では,発話レベルでのSD精度を算出する新しい対話型DER (CDER) 評価指標を設計する。
- 参考スコア(独自算出の注目度): 63.86406909879314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The conversation scenario is one of the most important and most challenging
scenarios for speech processing technologies because people in conversation
respond to each other in a casual style. Detecting the speech activities of
each person in a conversation is vital to downstream tasks, like natural
language processing, machine translation, etc. People refer to the detection
technology of "who speak when" as speaker diarization (SD). Traditionally,
diarization error rate (DER) has been used as the standard evaluation metric of
SD systems for a long time. However, DER fails to give enough importance to
short conversational phrases, which are short but important on the semantic
level. Also, a carefully and accurately manually-annotated testing dataset
suitable for evaluating the conversational SD technologies is still unavailable
in the speech community. In this paper, we design and describe the
Conversational Short-phrases Speaker Diarization (CSSD) task, which consists of
training and testing datasets, evaluation metric and baselines. In the dataset
aspect, despite the previously open-sourced 180-hour conversational
MagicData-RAMC dataset, we prepare an individual 20-hour conversational speech
test dataset with carefully and artificially verified speakers timestamps
annotations for the CSSD task. In the metric aspect, we design the new
conversational DER (CDER) evaluation metric, which calculates the SD accuracy
at the utterance level. In the baseline aspect, we adopt a commonly used
method: Variational Bayes HMM x-vector system, as the baseline of the CSSD
task. Our evaluation metric is publicly available at
https://github.com/SpeechClub/CDER_Metric.
- Abstract(参考訳): 会話シナリオは、会話中の人々がカジュアルなスタイルで互いに反応するため、音声処理技術にとって最も重要かつ最も困難なシナリオの1つです。
会話中の各人の音声活動を検出することは、自然言語処理や機械翻訳などの下流タスクにとって不可欠である。
人々は"who speak when"の検出技術を話者ダイアリゼーション(sd)と呼ぶ。
伝統的に、ダイアリゼーションエラーレート(der)はsdシステムの標準評価基準として長い間用いられてきた。
しかし、DERは、意味レベルでは短いが重要な、会話の短いフレーズに対して十分な重要性を与えていない。
また、音声コミュニティでは、会話型sd技術を評価するのに適した、慎重に、正確に手動でテストデータセットが利用できない。
本稿では、データセットのトレーニングとテスト、評価基準、ベースラインからなる会話短文話者ダイアリゼーション(CSSD)タスクを設計し、記述する。
データセットに関しては、これまで180時間の会話型magicdata-ramcデータセットをオープンソースとして公開していたが、cssdタスクにアノテーションをタイムスタンプして、注意深く、かつ人工的に検証した20時間の会話型音声テストデータセットを作成する。
距離の面では,発話レベルでのSD精度を算出する新しい対話型DER (CDER) 評価指標を設計する。
ベースラインの面では、cssdタスクのベースラインとして、変分ベイズhmm x-vectorシステムという一般的な方法を採用しています。
評価基準はhttps://github.com/speechclub/cder_metricで公開しています。
関連論文リスト
- SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words [45.2706444740307]
音声対話理解と生成の多次元評価を目的としたベンチマークデータセットであるSD-Evalを提案する。
3つの異なるモデルを実装し、SD-Evalと同様のプロセスに従ってトレーニングセットを構築する。
パラ言語的・環境的な情報を条件付けしたモデルは、客観的・主観的尺度の両方において、相手よりも優れている。
論文 参考訳(メタデータ) (2024-06-19T08:46:29Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。