論文の概要: Exploring the Use of an Unsupervised Autoregressive Model as a Shared
Encoder for Text-Dependent Speaker Verification
- arxiv url: http://arxiv.org/abs/2008.03615v1
- Date: Sat, 8 Aug 2020 22:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 12:22:59.916616
- Title: Exploring the Use of an Unsupervised Autoregressive Model as a Shared
Encoder for Text-Dependent Speaker Verification
- Title(参考訳): テキスト依存話者検証のための共有エンコーダとしての教師なし自己回帰モデルの検討
- Authors: Vijay Ravi, Ruchao Fan, Amber Afshan, Huanhua Lu and Abeer Alwan
- Abstract要約: 本稿では,タスク固有のデコーダを用いた共有エンコーダを用いたテキスト依存型自動話者検証(TD-ASV)を提案する。
提案手法は,大規模でラベルのないデータリッチなドメインから活用でき,下流タスクとは無関係に音声パターンを学習できることを示す。
- 参考スコア(独自算出の注目度): 22.894402178709136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel way of addressing text-dependent automatic
speaker verification (TD-ASV) by using a shared-encoder with task-specific
decoders. An autoregressive predictive coding (APC) encoder is pre-trained in
an unsupervised manner using both out-of-domain (LibriSpeech, VoxCeleb) and
in-domain (DeepMine) unlabeled datasets to learn generic, high-level feature
representation that encapsulates speaker and phonetic content. Two
task-specific decoders were trained using labeled datasets to classify speakers
(SID) and phrases (PID). Speaker embeddings extracted from the SID decoder were
scored using a PLDA. SID and PID systems were fused at the score level. There
is a 51.9% relative improvement in minDCF for our system compared to the fully
supervised x-vector baseline on the cross-lingual DeepMine dataset. However,
the i-vector/HMM method outperformed the proposed APC encoder-decoder system. A
fusion of the x-vector/PLDA baseline and the SID/PLDA scores prior to PID
fusion further improved performance by 15% indicating complementarity of the
proposed approach to the x-vector system. We show that the proposed approach
can leverage from large, unlabeled, data-rich domains, and learn speech
patterns independent of downstream tasks. Such a system can provide competitive
performance in domain-mismatched scenarios where test data is from data-scarce
domains.
- Abstract(参考訳): 本稿では,タスク固有デコーダを用いた共有エンコーダを用いたテキスト依存型自動話者検証(TD-ASV)を提案する。
自己回帰予測符号化(apc)エンコーダは、アウトオブドメイン(librispeech、voxceleb)とインドメイン(deepmine)のラベル付きデータセットの両方を使用して教師なしの方法で事前訓練され、話者と音声コンテンツをカプセル化する汎用的で高レベルな特徴表現を学習する。
ラベル付きデータセットを用いて2つのタスク固有デコーダを訓練し、話者(SID)とフレーズ(PID)を分類した。
SIDデコーダから抽出した話者埋め込みをPLDAを用いて評価した。
SIDとPIDはスコアレベルで融合した。
言語間データセットであるDeepMineの完全な教師付きxベクターベースラインと比較して,我々のシステムには51.9%の相対的な改善がある。
しかし、i-vector/HMM法は提案したAPCエンコーダデコーダよりも優れていた。
PID融合前のXベクトル/PLDAベースラインとSID/PLDAスコアの融合により、提案手法のXベクトル系への相補性を示す15%の性能が向上した。
提案手法は大規模でラベルのないデータ豊富なドメインから活用でき,下流タスクによらず音声パターンを学習できることを示す。
このようなシステムは、テストデータがデータスカースドメインからのものである場合、ドメインミスマッチしたシナリオで競合的なパフォーマンスを提供することができる。
関連論文リスト
- Joint-Optimized Unsupervised Adversarial Domain Adaptation in Remote Sensing Segmentation with Prompted Foundation Model [32.03242732902217]
本稿では、ソースドメインデータに基づいてトレーニングされたモデルをターゲットドメインサンプルに適用するという課題に対処する。
SAM(Segment Anything Model)とSAM-JOANet(SAM-JOANet)を併用した協調最適化対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:15:20Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Overlap-aware End-to-End Supervised Hierarchical Graph Clustering for
Speaker Diarization [41.24045486520547]
グラフニューラルネットワーク(GNN)に基づくエンドツーエンドの階層クラスタリングアルゴリズムを提案する。
提案したE-SHARCフレームワークは、最先端のダイアリゼーションシステムよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-23T15:35:44Z) - UNFUSED: UNsupervised Finetuning Using SElf supervised Distillation [53.06337011259031]
音声分類に自己教師付き学習を活用する新しい手法UnFuSeDを提案する。
エンコーダを用いて、実際の微調整ステップの前に、教師なしの微調整のための擬似ラベルを生成する。
UnFuSeDはLAPEベンチマークで最先端の結果を達成し、すべてのベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2023-03-10T02:43:36Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。