論文の概要: The Hitachi-JHU DIHARD III System: Competitive End-to-End Neural
Diarization and X-Vector Clustering Systems Combined by DOVER-Lap
- arxiv url: http://arxiv.org/abs/2102.01363v1
- Date: Tue, 2 Feb 2021 07:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:34:57.050279
- Title: The Hitachi-JHU DIHARD III System: Competitive End-to-End Neural
Diarization and X-Vector Clustering Systems Combined by DOVER-Lap
- Title(参考訳): 日立JHU DiHARD IIIシステム:DOVER-Lapと組み合わせた競合型エンドツーエンドニューラルダイアリゼーションとXベクトルクラスタリングシステム
- Authors: Shota Horiguchi, Nelson Yalta, Paola Garcia, Yuki Takashima, Yawen
Xue, Desh Raj, Zili Huang, Yusuke Fujita, Shinji Watanabe, Sanjeev Khudanpur
- Abstract要約: 本稿では,第3回DIHARD音声ダイアリゼーションチャレンジに提出された日立-JHUシステムについて詳述する。
このシステムは、2つのxベクターベースのサブシステム、2つのエンドツーエンドのニューラルダイアリゼーションベースのサブシステム、1つのハイブリッドサブシステムという5つのサブシステムのアンサンブル結果を出力する。
- 参考スコア(独自算出の注目度): 67.395341302752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper provides a detailed description of the Hitachi-JHU system that was
submitted to the Third DIHARD Speech Diarization Challenge. The system outputs
the ensemble results of the five subsystems: two x-vector-based subsystems, two
end-to-end neural diarization-based subsystems, and one hybrid subsystem. We
refine each system and all five subsystems become competitive and
complementary. After the DOVER-Lap based system combination, it achieved
diarization error rates of 11.58 % and 14.09 % in Track 1 full and core, and
16.94 % and 20.01 % in Track 2 full and core, respectively. With their results,
we won second place in all the tasks of the challenge.
- Abstract(参考訳): 本稿では,第3回DIHARD音声ダイアリゼーションチャレンジに提出された日立-JHUシステムについて詳述する。
このシステムは5つのサブシステム(x-vectorベースのサブシステム2つ、エンドツーエンドのニューラルネットワークダイアリゼーションベースのサブシステム2つ、ハイブリッドサブシステム1つ)のアンサンブル結果を出力する。
各システムを洗練し、5つのサブシステムすべてが競争力と補完的になります。
DOVER-Lapベースのシステムの組み合わせの後、トラック1のフルとコアで11.58 %と14.09 %、トラック2のフルとコアで16.94 %と20.01 %というダイアリゼーションエラー率を達成した。
その結果、私たちはチャレンジのすべてのタスクで2位を獲得しました。
関連論文リスト
- Distilling System 2 into System 1 [35.194258450176534]
大規模言語モデル(LLM)は、中間思考を生成するために推論中に余分な計算に費やすことができる。
そこで本研究では, 従来のシステム1の性能と比較して, 改良された結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-08T15:17:46Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Two-pass Decoding and Cross-adaptation Based System Combination of
End-to-end Conformer and Hybrid TDNN ASR Systems [61.90743116707422]
本稿では,ハイブリッドTDNNとConformer E2E ASRシステムのためのマルチパス再構成とクロスアダプティブに基づくシステムの組み合わせについて検討する。
NIST Hub5'00、Rt03、Rt02の評価データに対して、マルチパス再構成を用いて得られた最良の組み合わせシステムにより、統計的に有意な単語誤り率(WER)が2.5%から3.9%の絶対値(22.5%から28.9%の相対値)に低下した。
論文 参考訳(メタデータ) (2022-06-23T10:17:13Z) - Investigations on Speech Recognition Systems for Low-Resource Dialectal
Arabic-English Code-Switching Speech [32.426525641734344]
コードスイッチによるエジプト・アラビア英語自動音声認識(ASR)に関する研究について述べる。
DNNベースのハイブリッドモデルとTransformerベースのエンドツーエンドモデルを用いて,ASRシステムを構築した。
両システムの出力を組み合わせることで,認識を向上できることを示す。
論文 参考訳(メタデータ) (2021-08-29T17:23:30Z) - Joint System-Wise Optimization for Pipeline Goal-Oriented Dialog System [76.22810715401147]
本稿では,パイプラインダイアログシステムのための新しい統合システムワイド最適化手法を提案する。
まず,NLUトレーニングのためのラベル付けプロセスを自動化する新しいデータ拡張手法を提案する。
第2に,ポアソン分布を用いた新しいポリシパラメータ化を提案する。
論文 参考訳(メタデータ) (2021-06-09T06:44:57Z) - USTC-NELSLIP System Description for DIHARD-III Challenge [78.40959509760488]
我々のシステムの革新は、ダイアリゼーション問題を解決するための様々なフロントエンド技術の組み合わせにある。
私達の最もよいシステムは評価セットのトラック1および16.78%のトラック2で11.30%のDERを達成しました。
論文 参考訳(メタデータ) (2021-03-19T07:00:51Z) - Effects of Word-frequency based Pre- and Post- Processings for Audio
Captioning [49.41766997393417]
音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,ポストプロセッシングという3つの要素を組み合わせる。
このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
論文 参考訳(メタデータ) (2020-09-24T01:07:33Z) - DIHARD II is Still Hard: Experimental Results and Discussions from the
DKU-LENOVO Team [22.657782236219933]
本稿では,DKULEチームによる第2回DIHARD音声ダイアリゼーションチャレンジの提出システムについて述べる。
我々のダイアリゼーションシステムには、音声活動検出(VAD)、セグメンテーション、話者埋め込み抽出、類似度スコアリング、クラスタリング、分離、重複検出といった複数のモジュールが含まれている。
当社のシステムでは、公式基準に対してDerを27.5%、31.7%削減していますが、ダイアリゼーションタスクは依然として非常に難しいと考えています。
論文 参考訳(メタデータ) (2020-02-23T11:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。