論文の概要: Raw waveform speaker verification for supervised and self-supervised
learning
- arxiv url: http://arxiv.org/abs/2203.08488v1
- Date: Wed, 16 Mar 2022 09:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 15:25:26.637975
- Title: Raw waveform speaker verification for supervised and self-supervised
learning
- Title(参考訳): 教師付き自己教師型学習のための生波形話者検証
- Authors: Jee-weon Jung, You Jin Kim, Hee-Soo Heo, Bong-Jin Lee, Youngki Kwon,
Joon Son Chung
- Abstract要約: 本稿では,話者検証に有効な手法を取り入れた新しい生波形話者検証モデルを提案する。
最も優れた構成の下では、このモデルは、最先端のモデルと競合する0.89%のエラー率を示す。
また、自己教師型学習フレームワークを用いて、提案モデルについて検討し、この研究シリーズにおける最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 30.08242210230669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker verification models that directly operate upon raw waveforms are
receiving growing attention. However, their performances are less competitive
than the state-of-the-art handcrafted feature-based counterparts, demonstrating
equal error rates under 1% on the benchmark VoxCeleb1 evaluation protocol. In
addition, they have yet not been explored with self-supervised learning
frameworks. This paper proposes a new raw waveform speaker verification model
that incorporates techniques proven effective for speaker verification,
including the Res2Net backbone module and the aggregation method considering
both context and channels. Under the best performing configuration, the model
shows an equal error rate of 0.89%, competitive with state-of-the-art models.
We also explore the proposed model with a self-supervised learning framework
and show the state-of-the-art performance in this line of research. Finally, we
show that leveraging the model trained with self-supervision successfully
serves as a pre-trained model under the semi-supervised scenario where it is
assumed that only a limited amount of data has a ground truth label and a
bigger data has no label.
- Abstract(参考訳): 生波形を直接操作する話者検証モデルに注目が集まっている。
しかし、その性能は最先端のハンドクラフト機能ベースに比べて競争力が低く、ベンチマークvoxceleb1評価プロトコルで1%未満のエラー率を示した。
さらに、自己教師付き学習フレームワークではまだ検討されていない。
本稿では,res2net backboneモジュールや,コンテキストとチャネルの両方を考慮した集約法など,話者照合に有効な手法を取り入れた新たな生波形話者照合モデルを提案する。
最良の構成では、このモデルは最先端のモデルと同等のエラー率0.89%である。
また,自己教師付き学習フレームワークを用いて提案モデルを検討し,本研究における最先端のパフォーマンスを示す。
最後に,自己超越で訓練したモデルを半教師付きシナリオの事前学習モデルとして有効に活用することを示し,その場合,限られた量のデータだけが真理ラベルを持ち,より大きなデータにラベルがないと仮定する。
関連論文リスト
- Evaluation of Speech Representations for MOS prediction [0.7329200485567826]
本稿では,音声品質予測のための特徴抽出モデルの評価を行う。
また,教師付き学習モデルと自己教師付き学習モデルの埋め込みを話者検証モデルの埋め込みと比較するモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-16T17:21:42Z) - How to Estimate Model Transferability of Pre-Trained Speech Models? [84.11085139766108]
事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワーク
ベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。
本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
論文 参考訳(メタデータ) (2023-06-01T04:52:26Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Improving Label Quality by Jointly Modeling Items and Annotators [68.8204255655161]
雑音アノテータから基底真理ラベルを学習するための完全ベイズ的枠組みを提案する。
我々のフレームワークは、ラベル分布上の生成的ベイズソフトクラスタリングモデルを古典的なDavidとSkeneのジョイントアノテータデータモデルに分解することでスケーラビリティを保証する。
論文 参考訳(メタデータ) (2021-06-20T02:15:20Z) - A Multi-Level Attention Model for Evidence-Based Fact Checking [58.95413968110558]
シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。
Fact extract and VERification のための大規模データセットの結果、我々のモデルはグラフベースのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-02T05:40:12Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Self-Supervised Contrastive Learning for Unsupervised Phoneme
Segmentation [37.054709598792165]
このモデルは畳み込みニューラルネットワークであり、生波形上で直接動作する。
ノイズコントラスト推定原理を用いて信号のスペクトル変化を同定する。
テスト時には、モデル出力にピーク検出アルゴリズムを適用して最終境界を生成する。
論文 参考訳(メタデータ) (2020-07-27T12:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。