論文の概要: Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias
- arxiv url: http://arxiv.org/abs/2009.09556v1
- Date: Mon, 21 Sep 2020 00:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 05:54:00.157446
- Title: Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias
- Title(参考訳): 明示的帰納的バイアスをもつ教師・学生ネットワークを用いたオープンセット短発話話者照合
- Authors: Mufan Sang, Wei Xia, John H.L. Hansen
- Abstract要約: そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
- 参考スコア(独自算出の注目度): 59.788358876316295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In forensic applications, it is very common that only small naturalistic
datasets consisting of short utterances in complex or unknown acoustic
environments are available. In this study, we propose a pipeline solution to
improve speaker verification on a small actual forensic field dataset. By
leveraging large-scale out-of-domain datasets, a knowledge distillation based
objective function is proposed for teacher-student learning, which is applied
for short utterance forensic speaker verification. The objective function
collectively considers speaker classification loss, Kullback-Leibler
divergence, and similarity of embeddings. In order to advance the trained deep
speaker embedding network to be robust for a small target dataset, we introduce
a novel strategy to fine-tune the pre-trained student model towards a forensic
target domain by utilizing the model as a finetuning start point and a
reference in regularization. The proposed approaches are evaluated on the
1st48-UTD forensic corpus, a newly established naturalistic dataset of actual
homicide investigations consisting of short utterances recorded in uncontrolled
conditions. We show that the proposed objective function can efficiently
improve the performance of teacher-student learning on short utterances and
that our fine-tuning strategy outperforms the commonly used weight decay method
by providing an explicit inductive bias towards the pre-trained model.
- Abstract(参考訳): 法医学的な応用では、複雑な音環境や未知の音環境における短い発話からなる小さな自然主義的なデータセットのみが利用できることが非常に一般的である。
本研究では,小型の法医学的フィールドデータセット上での話者検証を改善するパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習における知識蒸留に基づく目的関数を提案する。
目的関数は話者分類の損失、kullback-leiblerの発散、埋め込みの類似性を考慮する。
訓練された深層話者埋め込みネットワークを、小規模のターゲットデータセットに対して頑健なものにするために、このモデルを微調整開始点と正規化時の参照として活用し、事前学習した学生モデルを法医学的対象領域に向けて微調整する新しい戦略を導入する。
提案手法は,未制御条件で記録された短発話からなる実殺人調査を新たに確立した自然主義データセットである1st48-utd法医学コーパスを用いて評価した。
提案する目的関数は,短い発話における教師・生徒学習のパフォーマンスを効率的に向上させ,事前学習モデルに対して明示的な帰納的バイアスを与えることで,提案手法が一般の重み減衰法よりも優れることを示す。
関連論文リスト
- Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Phonetic and Prosody-aware Self-supervised Learning Approach for
Non-native Fluency Scoring [13.817385516193445]
音声と韻律の特徴を解析することにより、音声の流速/拡散を評価することができる。
ディープ・ニューラル・ネットワークは一般に、流感に関連した特徴を人間のスコアにマッピングするように訓練されている。
本稿では,流音評価のための音声と韻律の認識を考慮した自己教師付き学習(SSL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T05:39:41Z) - Label-Efficient Object Detection via Region Proposal Network
Pre-Training [58.50615557874024]
地域提案ネットワーク(RPN)に効果的な事前学習を提供するための簡単な事前学習タスクを提案する。
RPN事前学習のないマルチステージ検出器と比較して,本手法はダウンストリームタスク性能を継続的に改善することができる。
論文 参考訳(メタデータ) (2022-11-16T16:28:18Z) - Semi-Supervised Learning Based on Reference Model for Low-resource TTS [32.731900584216724]
本稿では,ラベル付きターゲットデータに制限があるニューラルネットワークの半教師付き学習手法を提案する。
実験結果から,対象データに制限のある半教師付き学習手法は,音声合成における自然性と頑健性を達成するために,テストデータの音声品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-25T07:48:07Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Improving speech recognition models with small samples for air traffic
control systems [9.322392779428505]
本研究では, 小さなトレーニングサンプルの課題に対処すべく, 事前学習とトランスファー学習に基づく新しいトレーニング手法を提案する。
3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。
実験の結果,ASRの性能は3つのデータセットで大幅に向上した。
論文 参考訳(メタデータ) (2021-02-16T08:28:52Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。