論文の概要: DropClass and DropAdapt: Dropping classes for deep speaker
representation learning
- arxiv url: http://arxiv.org/abs/2002.00453v1
- Date: Sun, 2 Feb 2020 18:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 20:21:20.424468
- Title: DropClass and DropAdapt: Dropping classes for deep speaker
representation learning
- Title(参考訳): DropClassとDropAdapt: 深層話者表現学習のためのドロップクラス
- Authors: Chau Luu, Peter Bell, Steve Renals
- Abstract要約: 本研究は,授業中にクラスをドロップするという概念に基づいて,埋め込み学習の2つのアプローチを提案する。
両手法が話者検証タスクにおいて性能向上をもたらすことを示す。
- 参考スコア(独自算出の注目度): 33.60058873783114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many recent works on deep speaker embeddings train their feature extraction
networks on large classification tasks, distinguishing between all speakers in
a training set. Empirically, this has been shown to produce
speaker-discriminative embeddings, even for unseen speakers. However, it is not
clear that this is the optimal means of training embeddings that generalize
well. This work proposes two approaches to learning embeddings, based on the
notion of dropping classes during training. We demonstrate that both approaches
can yield performance gains in speaker verification tasks. The first proposed
method, DropClass, works via periodically dropping a random subset of classes
from the training data and the output layer throughout training, resulting in a
feature extractor trained on many different classification tasks. Combined with
an additive angular margin loss, this method can yield a 7.9% relative
improvement in equal error rate (EER) over a strong baseline on VoxCeleb. The
second proposed method, DropAdapt, is a means of adapting a trained model to a
set of enrolment speakers in an unsupervised manner. This is performed by
fine-tuning a model on only those classes which produce high probability
predictions when the enrolment speakers are used as input, again also dropping
the relevant rows from the output layer. This method yields a large 13.2%
relative improvement in EER on VoxCeleb. The code for this paper has been made
publicly available.
- Abstract(参考訳): 深い話者埋め込みに関する最近の多くの研究は、大きな分類タスクで特徴抽出ネットワークを訓練し、トレーニングセット内のすべての話者を区別している。
経験上、これは見当たらない話者に対しても、話者差別的埋め込みを生み出すことが示されている。
しかし、これが一般化した埋め込みを訓練する最適な方法であるかどうかは不明である。
本研究は,学習中にクラスをドロップするという概念に基づく,組込み学習への2つのアプローチを提案する。
両手法が話者検証タスクにおいて性能向上をもたらすことを示す。
最初の提案手法であるDropClassは、トレーニングデータと出力層からランダムなクラスのサブセットを定期的にドロップすることで、多くの異なる分類タスクで訓練された特徴抽出器を実現する。
付加的な角マージン損失と組み合わせることで、voxcelebの強いベースラインに対して、同じ誤差率(eer)で7.9%の相対的に改善することができる。
2つ目の提案手法であるDropAdaptは、教師なしの方法で教師なし話者群に訓練されたモデルを適用する手段である。
これは、エンローメントスピーカを入力として使用する場合に高い確率予測を生成するクラスのみをモデルに微調整し、関連する行を出力層から降ろすことによって行われる。
この方法は、VoxCeleb上のEERの13.2%の相対的な改善をもたらす。
この論文のコードは公開されています。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Collar-aware Training for Streaming Speaker Change Detection in
Broadcast Speech [0.0]
本稿では,話者変化検出モデルのための新しい学習手法を提案する。
提案手法では, 対象関数を用いて, モデルが特定のカラー内の1つの正のラベルを予測できるようにする。
論文 参考訳(メタデータ) (2022-05-14T15:35:43Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - SPIRAL: Self-supervised Perturbation-Invariant Representation Learning
for Speech Pre-Training [25.80559992732508]
SPIRALは、教師/学生のフレームワークにおいて、摂動データの表現を聴覚的に学習することで機能する。
本稿では,実環境における音声応用において重要なノイズ・ロバスト性の問題に対処する。
論文 参考訳(メタデータ) (2022-01-25T09:53:36Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。