論文の概要: Target Speaker Voice Activity Detection with Transformers and Its
Integration with End-to-End Neural Diarization
- arxiv url: http://arxiv.org/abs/2208.13085v1
- Date: Sat, 27 Aug 2022 21:11:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 14:27:29.249089
- Title: Target Speaker Voice Activity Detection with Transformers and Its
Integration with End-to-End Neural Diarization
- Title(参考訳): 変圧器を用いたターゲット話者音声活動検出と終端ニューラルダイアリゼーションの統合
- Authors: Dongmei Wang, Xiong Xiao, Naoyuki Kanda, Takuya Yoshioka, Jian Wu
- Abstract要約: トランスフォーマー層をスピーカ軸に印加し、元のTS-VADモデルに提供される話者プロファイルの順序にモデル出力を不感にする。
また,エンド・ツー・エンドのニューラルダイアリゼーションをエンコーダ・デコーダ・ベース・アトラクション(EEND-EDA)を用いて拡張し,ドット製品ベースの話者検出層を変換器ベースのTS-VADに置き換えた。
- 参考スコア(独自算出の注目度): 26.013008260365275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes a speaker diarization model based on target speaker
voice activity detection (TS-VAD) using transformers. To overcome the original
TS-VAD model's drawback of being unable to handle an arbitrary number of
speakers, we investigate model architectures that use input tensors with
variable-length time and speaker dimensions. Transformer layers are applied to
the speaker axis to make the model output insensitive to the order of the
speaker profiles provided to the TS-VAD model. Time-wise sequential layers are
interspersed between these speaker-wise transformer layers to allow the
temporal and cross-speaker correlations of the input speech signal to be
captured. We also extend a diarization model based on end-to-end neural
diarization with encoder-decoder based attractors (EEND-EDA) by replacing its
dot-product-based speaker detection layer with the transformer-based TS-VAD.
Experimental results on VoxConverse show that using the transformers for the
cross-speaker modeling reduces the diarization error rate (DER) of TS-VAD by
10.9%, achieving a new state-of-the-art (SOTA) DER of 4.74%. Also, our extended
EEND-EDA reduces DER by 6.9% on the CALLHOME dataset relative to the original
EEND-EDA with a similar model size, achieving a new SOTA DER of 11.18% under a
widely used training data setting.
- Abstract(参考訳): 本稿では,トランスを用いたターゲット話者音声活動検出(TS-VAD)に基づく話者ダイアリゼーションモデルについて述べる。
TS-VADモデルが任意の数の話者を扱えないという欠点を克服するため,可変長時間および話者次元の入力テンソルを用いたモデルアーキテクチャについて検討する。
変換器層をスピーカ軸に印加し、TS-VADモデルに提供される話者プロファイルの順序にモデル出力を不感にする。
これらの話者方向トランスフォーマー層の間に時間方向のシーケンシャルな層を挟むことにより、入力音声信号の時間的および時空間的相関を捉えることができる。
また,エンド・ツー・エンドのニューラルダイアリゼーションをエンコーダ・デコーダ・ベース・アトラクション(EEND-EDA)を用いて拡張し,ドット製品ベースの話者検出層を変換器ベースのTS-VADに置き換えた。
VoxConverseの実験結果から,トランスフォーマーを用いたTS-VADのダイアリゼーション誤差率(DER)を10.9%低減し,SOTA(State-of-the-art)DERの4.74%を達成した。
また、拡張EEND-EDAは、オリジナルのEEND-EDAと比較してDERを6.9%削減し、広く使われているトレーニングデータ設定の下で新しいSOTA DERの11.18%を達成する。
関連論文リスト
- BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR [54.23941663326509]
話者の頻繁な変化は、話者の変化を予測するのを難しくする。
境界対応型直列出力訓練(BA-SOT)を提案する。
オリジナルのSOTと比較して、BA-SOTはCER/UD-CERを5.1%/14.0%削減している。
論文 参考訳(メタデータ) (2023-05-23T06:08:13Z) - Improving Transformer-based Networks With Locality For Automatic Speaker
Verification [40.06788577864032]
話者埋め込み抽出のためのトランスフォーマーベースアーキテクチャが検討されている。
本研究では,2方向の局所性モデルを用いてトランスフォーマーを改良する。
本稿では,VoxCelebデータセットと大規模Microsoft内部多言語(MS-internal)データセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-02-17T01:04:51Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - End-to-end Neural Diarization: From Transformer to Conformer [15.573163409846858]
本稿では,Conformerをベースとしたニューラルダイアリゼーションシステムを提案する。
シミュレーションデータと実話者行動のミスマッチを時間統計量で定量化する。
EENDトレーニングでシミュレーションデータと実データを組み合わせることで、ミスマッチをさらに軽減します。
論文 参考訳(メタデータ) (2021-06-14T05:21:08Z) - Learning Robust Latent Representations for Controllable Speech Synthesis [0.0]
RTI-VAE(Reordered Transformer with Information reduction VAE)を提案し、異なる潜在変数間の相互情報を最小限に抑える。
RTI-VAEは話者属性のクラスタオーバーラップをLSTM-VAE以上30%,バニラトランスフォーマー-VAE以上7%以上削減することを示した。
論文 参考訳(メタデータ) (2021-05-10T15:49:03Z) - End-to-End Speaker-Attributed ASR with Transformer [41.7739129773237]
本稿では,エンドツーエンド話者属性自動音声認識システムを提案する。
単調なマルチトーカー音声に対する話者カウント、音声認識、話者識別を共同で行う。
論文 参考訳(メタデータ) (2021-04-05T19:54:15Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。