論文の概要: USTC-NELSLIP System Description for DIHARD-III Challenge
- arxiv url: http://arxiv.org/abs/2103.10661v1
- Date: Fri, 19 Mar 2021 07:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 14:23:11.675902
- Title: USTC-NELSLIP System Description for DIHARD-III Challenge
- Title(参考訳): ustc-nelslip system description for dihard-iii challenge
- Authors: Yuxuan Wang, Maokui He, Shutong Niu, Lei Sun, Tian Gao, Xin Fang, Jia
Pan, Jun Du, Chin-Hui Lee
- Abstract要約: 我々のシステムの革新は、ダイアリゼーション問題を解決するための様々なフロントエンド技術の組み合わせにある。
私達の最もよいシステムは評価セットのトラック1および16.78%のトラック2で11.30%のDERを達成しました。
- 参考スコア(独自算出の注目度): 78.40959509760488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This system description describes our submission system to the Third DIHARD
Speech Diarization Challenge. Besides the traditional clustering based system,
the innovation of our system lies in the combination of various front-end
techniques to solve the diarization problem, including speech separation and
target-speaker based voice activity detection (TS-VAD), combined with iterative
data purification. We also adopted audio domain classification to design
domain-dependent processing. Finally, we performed post processing to do system
fusion and selection. Our best system achieved DERs of 11.30% in track 1 and
16.78% in track 2 on evaluation set, respectively.
- Abstract(参考訳): 本稿では,第3回DIHARD音声ダイアリゼーションチャレンジへの提案システムについて述べる。
従来のクラスタリングベースシステムに加えて,音声分離やts-vad(target-speaker based voice activity detection)などのダイアリゼーション問題を解決するためのフロントエンド技術と,反復的なデータ浄化を組み合わせることで,システムの革新を実現した。
また,音声領域分類をドメイン依存処理の設計に適用した。
最後に,システム融合と選択のためのポスト処理を行った。
最良システムは, トラック1で11.30%, トラック2で16.78%, 評価セットでそれぞれ達成した。
関連論文リスト
- TCG CREST System Description for the Second DISPLACE Challenge [19.387615374726444]
2024年の第2回DisPLACEチャレンジのために,我々のチームが開発した話者ダイアリゼーション(SD)と言語ダイアリゼーション(LD)システムについて述べる。
コントリビューションは,多言語および多話者シナリオにおいて,トラック1 for SDとトラック2 for LDに充てられた。
論文 参考訳(メタデータ) (2024-09-16T05:13:34Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization [54.41494515178297]
話者ダイアリゼーションを単一ラベル分類問題として再検討する。
話者の重なりと依存性を明示的にモデル化できる重なり認識型EEND(EEND-OLA)モデルを提案する。
オリジナルのEENDと比較すると、提案されたEEND-OLAはダイアリゼーションエラー率において14.39%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-03-08T05:05:26Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Royalflush Speaker Diarization System for ICASSP 2022 Multi-channel
Multi-party Meeting Transcription Challenge [4.022057598291766]
マルチチャンネル多人数会議記述課題へのRoyalflush話者ダイアリゼーションシステムの適用
システムは、音声強調、重複音声検出、話者埋め込み抽出、話者クラスタリング、音声分離、システム融合を含む。
論文 参考訳(メタデータ) (2022-02-10T03:35:05Z) - The Hitachi-JHU DIHARD III System: Competitive End-to-End Neural
Diarization and X-Vector Clustering Systems Combined by DOVER-Lap [67.395341302752]
本稿では,第3回DIHARD音声ダイアリゼーションチャレンジに提出された日立-JHUシステムについて詳述する。
このシステムは、2つのxベクターベースのサブシステム、2つのエンドツーエンドのニューラルダイアリゼーションベースのサブシステム、1つのハイブリッドサブシステムという5つのサブシステムのアンサンブル結果を出力する。
論文 参考訳(メタデータ) (2021-02-02T07:30:44Z) - The HUAWEI Speaker Diarisation System for the VoxCeleb Speaker
Diarisation Challenge [6.6238321827660345]
本稿では,VoxCeleb Speaker Recognition Challenge 2020の話者ダイアリゼーショントラック(Track 4)のシステム構成について述べる。
我々のダイアリゼーションシステムは、入力音声信号のフロントエンドとして、よく訓練されたニューラルネットワークに基づく音声強調モデルから成り立っている。
論文 参考訳(メタデータ) (2020-10-22T12:42:07Z) - Effects of Word-frequency based Pre- and Post- Processings for Audio
Captioning [49.41766997393417]
音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,ポストプロセッシングという3つの要素を組み合わせる。
このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
論文 参考訳(メタデータ) (2020-09-24T01:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。