論文の概要: TSUP Speaker Diarization System for Conversational Short-phrase Speaker
Diarization Challenge
- arxiv url: http://arxiv.org/abs/2210.14653v1
- Date: Wed, 26 Oct 2022 12:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 15:42:29.478252
- Title: TSUP Speaker Diarization System for Conversational Short-phrase Speaker
Diarization Challenge
- Title(参考訳): 会話型短文話者ダイアリゼーションチャレンジのためのツップ話者ダイアリゼーションシステム
- Authors: Bowen Pang, Huan Zhao, Gaosheng Zhang, Xiaoyue Yang, Yang Sun, Li
Zhang, Qing Wang, Lei Xie
- Abstract要約: 本稿では,ISCSLP 2022の会話型短文話者ダイアリゼーション(CSSD)課題について述べる。
本稿では、スペクトルクラスタリング(SC)に基づくダイアリゼーション、ターゲット話者音声活動検出(TS-VAD)、エンド・ツー・エンド・ニューラルダイアリゼーション(EEND)の3種類の典型的なダイアリゼーションシステムについて検討する。
提案したSCシステムは最終的に挑戦の3位にランクインする。
- 参考スコア(独自算出の注目度): 22.751108751824763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the TSUP team's submission to the ISCSLP 2022
conversational short-phrase speaker diarization (CSSD) challenge which
particularly focuses on short-phrase conversations with a new evaluation metric
called conversational diarization error rate (CDER). In this challenge, we
explore three kinds of typical speaker diarization systems, which are spectral
clustering(SC) based diarization, target-speaker voice activity
detection(TS-VAD) and end-to-end neural diarization(EEND) respectively. Our
major findings are summarized as follows. First, the SC approach is more
favored over the other two approaches under the new CDER metric. Second, tuning
on hyperparameters is essential to CDER for all three types of speaker
diarization systems. Specifically, CDER becomes smaller when the length of
sub-segments setting longer. Finally, multi-system fusion through DOVER-LAP
will worsen the CDER metric on the challenge data. Our submitted SC system
eventually ranks the third place in the challenge.
- Abstract(参考訳): 本稿では,ISCSLP 2022の短文話者ダイアリゼーション(CSSD)課題に対するTSUPチームの提案について述べる。
本稿では,スペクトルクラスタリング(sc)に基づくダイアリゼーション,ts-vad(target-speaker voice activity detection),eend(end-to-end neural diarization)の3種類の典型的な話者ダイアリゼーションシステムについて検討する。
主な知見は以下の通りである。
まず、SCアプローチは、新しいCDERメトリックの下での他の2つのアプローチよりも好まれる。
第二に、3種類の話者ダイアリゼーションシステムにおいて、CDERにとってハイパーパラメータのチューニングが不可欠である。
特に、サブセグメントの長さが長くなるとcderは小さくなる。
最後に、DOVER-LAPによるマルチシステム融合により、チャレンジデータのCDERメトリックが悪化する。
提案したSCシステムは最終的に挑戦の3位にランクインする。
関連論文リスト
- Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC [73.23245793460275]
マルチトーカー音声認識は、重複する音声を遠ざけ、書き起こす際、独特な課題に直面している。
本稿では,MTASRにSOT(Serialized Output Training)を取り入れた場合の話者の絡み合いにおける接続性時間分類(CTC)の役割について検討する。
本研究では,ベイズリスクCTCフレームワークに基づく話者認識型CTC(SACTC)学習目標を提案する。
論文 参考訳(メタデータ) (2024-09-19T01:26:33Z) - Bi-LSTM Scoring Based Similarity Measurement with Agglomerative
Hierarchical Clustering (AHC) for Speaker Diarization [0.0]
2つの話者間の典型的な会話は、声が重なり合う部分からなり、互いに中断したり、複数の文間での会話を止めたりする。
ダイアリゼーション技術の最近の進歩は、話者ダイアリゼーションシステムを即興化するニューラルネットワークベースのアプローチを活用している。
類似度行列に存在する要素を推定するための双方向長短期記憶ネットワークを提案する。
論文 参考訳(メタデータ) (2022-05-19T17:20:51Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - The USTC-Ximalaya system for the ICASSP 2022 multi-channel multi-party
meeting transcription (M2MeT) challenge [43.262531688434215]
ターゲットスピーカ音声活動検出(TS-VAD)における2つの改善点を提案する。
これらの手法は,高話者オーバラップ比,高残響・雑音条件下での実世界会議シナリオにおける多話者会話を処理するように設計されている。
論文 参考訳(メタデータ) (2022-02-10T06:06:48Z) - Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel
Multi-party Meeting Transcription Challenge [4.022057598291766]
マルチチャンネル多人数会議記述課題へのRoyalflush話者ダイアリゼーションシステムの適用
システムは、音声強調、重複音声検出、話者埋め込み抽出、話者クラスタリング、音声分離、システム融合を含む。
論文 参考訳(メタデータ) (2022-02-10T03:35:05Z) - Adapting Document-Grounded Dialog Systems to Spoken Conversations using
Data Augmentation and a Noisy Channel Model [46.93744191416991]
第10回ダイアログ・システム・テクノロジー・チャレンジ(DSTC10)第2章の報告を要約する。
このタスクは3つのサブタスクから構成される: ターンが知識を求めるかどうかを検知し、関連する知識文書を選択し、最後に接地された応答を生成する。
ベストシステムは,課題の人的評価において,第1位,第3位を達成できた。
論文 参考訳(メタデータ) (2021-12-16T12:51:52Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - ConvAI3: Generating Clarifying Questions for Open-Domain Dialogue
Systems (ClariQ) [64.60303062063663]
本論文では,対話システムに対する質問の明確化に関する課題について詳述する(ClariQ)。
このチャレンジは、2020年のSearch Oriented Conversational AI (SCAI) EMNLPワークショップで、ConvAI3(Conversational AI Challenge series)の一部として組織されている。
論文 参考訳(メタデータ) (2020-09-23T19:48:02Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term
Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。
本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。
前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。
後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文 参考訳(メタデータ) (2020-05-05T14:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。