論文の概要: The USTC-Ximalaya system for the ICASSP 2022 multi-channel multi-party
meeting transcription (M2MeT) challenge
- arxiv url: http://arxiv.org/abs/2202.04855v1
- Date: Thu, 10 Feb 2022 06:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 16:21:29.956272
- Title: The USTC-Ximalaya system for the ICASSP 2022 multi-channel multi-party
meeting transcription (M2MeT) challenge
- Title(参考訳): ICASSP 2022多チャンネル会議転写(M2MeT)のためのUSTC-Ximalayaシステム
- Authors: Maokui He and Xiang Lv and Weilin Zhou and JingJing Yin and Xiaoqi
Zhang and Yuxuan Wang and Shutong Niu and Yuhang Cao and Heng Lu and Jun Du
and Chin-Hui Lee
- Abstract要約: ターゲットスピーカ音声活動検出(TS-VAD)における2つの改善点を提案する。
これらの手法は,高話者オーバラップ比,高残響・雑音条件下での実世界会議シナリオにおける多話者会話を処理するように設計されている。
- 参考スコア(独自算出の注目度): 43.262531688434215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose two improvements to target-speaker voice activity detection
(TS-VAD), the core component in our proposed speaker diarization system that
was submitted to the 2022 Multi-Channel Multi-Party Meeting Transcription
(M2MeT) challenge. These techniques are designed to handle multi-speaker
conversations in real-world meeting scenarios with high speaker-overlap ratios
and under heavy reverberant and noisy condition. First, for data preparation
and augmentation in training TS-VAD models, speech data containing both real
meetings and simulated indoor conversations are used. Second, in refining
results obtained after TS-VAD based decoding, we perform a series of
post-processing steps to improve the VAD results needed to reduce diarization
error rates (DERs). Tested on the ALIMEETING corpus, the newly released
Mandarin meeting dataset used in M2MeT, we demonstrate that our proposed system
can decrease the DER by up to 66.55/60.59% relatively when compared with
classical clustering based diarization on the Eval/Test set.
- Abstract(参考訳): 我々は,2022年にM2MeT(Multi-Channel Multi-Party Meeting Transcription)に提案された話者ダイアリゼーションシステムの中核となるターゲットスピーカ音声活動検出(TS-VAD)の2つの改良点を提案する。
これらの手法は,高話者オーバラップ比,高残響・雑音条件下での実世界会議シナリオにおける多話者会話を処理するように設計されている。
まず、TS-VADモデルのトレーニングにおけるデータ準備と強化のために、実際の会議と模擬屋内会話の両方を含む音声データを用いる。
第2に,ts-vadに基づく復号後の精錬結果において,ダイアリゼーションエラー率(ders)低減に必要なvad結果を改善するために,一連の後処理を行う。
M2MeTで新たにリリースされたマンダリン会議データセットであるALIMEEING corpusを用いて,従来のクラスタリングによるEval/Testセットのダイアリゼーションと比較した場合,提案システムによりDERを66.55/60.59%削減できることを示す。
関連論文リスト
- Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - The Volcspeech system for the ICASSP 2022 multi-channel multi-party
meeting transcription challenge [18.33054364289739]
本稿ではICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challengeについて述べる。
トラック1では,クラスタリングに基づく話者ダイアリゼーションシステムを実現するために,いくつかのアプローチを提案する。
トラック2では,コンバータモデルを用いた共同CTCアテンションアーキテクチャを用いたシステムを開発した。
論文 参考訳(メタデータ) (2022-02-09T03:38:39Z) - The RoyalFlush System of Speech Recognition for M2MeT Challenge [5.863625637354342]
本稿では,M2MeTチャレンジにおけるマルチスピーカ自動音声認識(ASR)の追跡のためのRoyalFlushシステムについて述べる。
大規模シミュレーションデータを用いたシリアライズアウトプットトレーニング(SOT)に基づくマルチスピーカASRシステムを採用した。
我々のシステムでは、検証セットでは12.22%の絶対文字誤り率(CER)が、テストセットでは12.11%が削減された。
論文 参考訳(メタデータ) (2022-02-03T14:38:26Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Large-Scale Pre-Training of End-to-End Multi-Talker ASR for Meeting
Transcription with Single Distant Microphone [43.77139614544301]
単一の遠距離マイクロホン(SDM)で重なり合った音声を含む会議の翻訳は、自動音声認識(ASR)の最も困難な問題の1つです。
本稿では,SOT(シリアライズ・アウトプット・トレーニング)ベースのマルチストーカーASRを事前に訓練する2段階のアプローチを広く検討する。
AMI-SDMトレーニングデータの70時間の微調整により,SOT ASRモデルはAMI-SDM評価セットに対して21.2%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-03-31T02:43:32Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。