論文の概要: DIHARD II is Still Hard: Experimental Results and Discussions from the
DKU-LENOVO Team
- arxiv url: http://arxiv.org/abs/2002.12761v2
- Date: Tue, 5 May 2020 02:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 09:36:50.417550
- Title: DIHARD II is Still Hard: Experimental Results and Discussions from the
DKU-LENOVO Team
- Title(参考訳): DIHARD IIはまだ難しい - DKU-LENOVOチームによる実験結果と議論
- Authors: Qingjian Lin, Weicheng Cai, Lin Yang, Junjie Wang, Jun Zhang, Ming Li
- Abstract要約: 本稿では,DKULEチームによる第2回DIHARD音声ダイアリゼーションチャレンジの提出システムについて述べる。
我々のダイアリゼーションシステムには、音声活動検出(VAD)、セグメンテーション、話者埋め込み抽出、類似度スコアリング、クラスタリング、分離、重複検出といった複数のモジュールが含まれている。
当社のシステムでは、公式基準に対してDerを27.5%、31.7%削減していますが、ダイアリゼーションタスクは依然として非常に難しいと考えています。
- 参考スコア(独自算出の注目度): 22.657782236219933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the submitted system for the second DIHARD Speech
Diarization Challenge from the DKULENOVO team. Our diarization system includes
multiple modules, namely voice activity detection (VAD), segmentation, speaker
embedding extraction, similarity scoring, clustering, resegmentation and
overlap detection. For each module, we explore different techniques to enhance
performance. Our final submission employs the ResNet-LSTM based VAD, the Deep
ResNet based speaker embedding, the LSTM based similarity scoring and spectral
clustering. Variational Bayes (VB) diarization is applied in the resegmentation
stage and overlap detection also brings slight improvement. Our proposed system
achieves 18.84% DER in Track1 and 27.90% DER in Track2. Although our systems
have reduced the DERs by 27.5% and 31.7% relatively against the official
baselines, we believe that the diarization task is still very difficult.
- Abstract(参考訳): 本稿では,DKULENOVOチームによる第2回DIHARD音声ダイアリゼーションチャレンジの提出システムについて述べる。
ダイアリゼーションシステムには音声アクティビティ検出(vad)、セグメンテーション、話者埋め込み抽出、類似度スコアリング、クラスタリング、再セグメンテーション、重なり検出など複数のモジュールが含まれている。
各モジュールに対して、パフォーマンスを向上させるためのさまざまなテクニックを検討します。
最後の提案では、ResNet-LSTMベースのVAD、Deep ResNetベースの話者埋め込み、LSTMベースの類似度スコアリング、スペクトルクラスタリングを採用。
変分ベイズ(VB)ダイアリゼーションは, 分離段階で適用され, 重なり検出も若干改善されている。
提案システムでは,トラック1では18.84%,トラック2では27.90%を達成している。
私たちのシステムは、公式のベースラインに対してdersを27.5%、31.7%削減しましたが、ダイアリゼーションタスクは依然として非常に難しいと考えています。
関連論文リスト
- TCG CREST System Description for the Second DISPLACE Challenge [19.387615374726444]
2024年の第2回DisPLACEチャレンジのために,我々のチームが開発した話者ダイアリゼーション(SD)と言語ダイアリゼーション(LD)システムについて述べる。
コントリビューションは,多言語および多話者シナリオにおいて,トラック1 for SDとトラック2 for LDに充てられた。
論文 参考訳(メタデータ) (2024-09-16T05:13:34Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization [54.41494515178297]
話者ダイアリゼーションを単一ラベル分類問題として再検討する。
話者の重なりと依存性を明示的にモデル化できる重なり認識型EEND(EEND-OLA)モデルを提案する。
オリジナルのEENDと比較すると、提案されたEEND-OLAはダイアリゼーションエラー率において14.39%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-03-08T05:05:26Z) - Joint Speech Activity and Overlap Detection with Multi-Exit Architecture [5.4878772986187565]
オーバーラップ音声検出(OSD)は、多人数変換のシナリオにおける音声応用において重要である。
本研究は,新たな視点からVADとOSDの共同作業について検討する。
特に,従来の分類網をマルチエグジットアーキテクチャで拡張することを提案する。
論文 参考訳(メタデータ) (2022-09-24T02:34:11Z) - The USTC-Ximalaya system for the ICASSP 2022 multi-channel multi-party
meeting transcription (M2MeT) challenge [43.262531688434215]
ターゲットスピーカ音声活動検出(TS-VAD)における2つの改善点を提案する。
これらの手法は,高話者オーバラップ比,高残響・雑音条件下での実世界会議シナリオにおける多話者会話を処理するように設計されている。
論文 参考訳(メタデータ) (2022-02-10T06:06:48Z) - The Volcspeech system for the ICASSP 2022 multi-channel multi-party
meeting transcription challenge [18.33054364289739]
本稿ではICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challengeについて述べる。
トラック1では,クラスタリングに基づく話者ダイアリゼーションシステムを実現するために,いくつかのアプローチを提案する。
トラック2では,コンバータモデルを用いた共同CTCアテンションアーキテクチャを用いたシステムを開発した。
論文 参考訳(メタデータ) (2022-02-09T03:38:39Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - USTC-NELSLIP System Description for DIHARD-III Challenge [78.40959509760488]
我々のシステムの革新は、ダイアリゼーション問題を解決するための様々なフロントエンド技術の組み合わせにある。
私達の最もよいシステムは評価セットのトラック1および16.78%のトラック2で11.30%のDERを達成しました。
論文 参考訳(メタデータ) (2021-03-19T07:00:51Z) - Effects of Word-frequency based Pre- and Post- Processings for Audio
Captioning [49.41766997393417]
音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,ポストプロセッシングという3つの要素を組み合わせる。
このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
論文 参考訳(メタデータ) (2020-09-24T01:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。