論文の概要: Distilling Multi-Level X-vector Knowledge for Small-footprint Speaker
Verification
- arxiv url: http://arxiv.org/abs/2303.01125v1
- Date: Thu, 2 Mar 2023 10:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 15:06:30.930820
- Title: Distilling Multi-Level X-vector Knowledge for Small-footprint Speaker
Verification
- Title(参考訳): 小型フットプリント話者検証のためのマルチレベルXベクトル知識の蒸留
- Authors: Xuechen Liu, Md Sahidullah, Tomi Kinnunen
- Abstract要約: 我々は,知識蒸留を活用した小型の深層話者埋込み抽出に焦点をあてた。
そこで本研究では,x-vectorモデル(教師ネットワーク)の様々なレベルからの埋め込みを組み合わせ,小学生ネットワークの訓練を行う。
- 参考スコア(独自算出の注目度): 18.684888457998284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep speaker models yield low error rates in speaker verification.
Nonetheless, the high performance tends to be exchanged for model size and
computation time, making these models challenging to run under limited
conditions. We focus on small-footprint deep speaker embedding extraction,
leveraging knowledge distillation. While prior work on this topic has addressed
speaker embedding extraction at the utterance level, we propose to combine
embeddings from various levels of the x-vector model (teacher network) to train
small-footprint student networks. Results indicate the usefulness of
frame-level information, with the student models being 85%-91% smaller than
their teacher, depending on the size of the teacher embeddings. Concatenation
of teacher embeddings results in student networks that reach comparable
performance along with the teacher while utilizing a 75% relative size
reduction from the teacher. The findings and analogies are furthered to other
x-vector variants.
- Abstract(参考訳): ディープスピーカーモデルは話者検証において低い誤り率をもたらす。
にもかかわらず、ハイパフォーマンスはモデルのサイズと計算時間で交換される傾向にあり、これらのモデルが限られた条件下で動作することを困難にしている。
我々は, 知識蒸留を活用し, 小型深層話者埋め込み抽出に焦点をあてた。
この話題の先行研究は、発話レベルで話者埋め込み抽出に対処する一方で、x-vectorモデル(教師ネットワーク)の様々なレベルからの埋め込みを組み合わせ、小さなフットプリントの学生ネットワークを訓練することを提案する。
その結果, 学生モデルは教師の埋め込みの大きさによって85%~91%小さくなっており, フレームレベルの情報の有用性が示唆された。
教師の埋め込みの結合は、教師から75%の相対的なサイズ削減を生かしながら、教師と同等のパフォーマンスに達する学生ネットワークに結果をもたらす。
発見と類似は、他のx-ベクター変種にさらに拡張される。
関連論文リスト
- Multi-Task Multi-Scale Contrastive Knowledge Distillation for Efficient Medical Image Segmentation [0.0]
本論文は,医用画像分割作業におけるニューラルネットワーク間の知識伝達の実現可能性を検討することを目的とする。
データボリュームが制限される医療画像の文脈では、より大きなトレーニング済みネットワークからの知識を活用することが有用である。
論文 参考訳(メタデータ) (2024-06-05T12:06:04Z) - On the Transferability of Large-Scale Self-Supervision to Few-Shot Audio
Classification [7.83105437734593]
自己教師付き学習は、ラベルのないデータから堅牢な特徴表現を学ぶ能力に優れています。
本研究は,大規模自己教師型モデルの性能を数ショット音声分類で評価する。
論文 参考訳(メタデータ) (2024-02-02T10:00:51Z) - Knowledge Distillation via Weighted Ensemble of Teaching Assistants [18.593268785143426]
知識蒸留は、教師と呼ばれる大きなモデルから学生と呼ばれる小さなモデルに知識を移す過程である。
教師と生徒のネットワークサイズギャップが大きくなると、学生ネットワークの性能は低下する。
学生モデル(より小さいモデル)は,複数の指導支援モデルを用いてさらに改善できることが示されている。
論文 参考訳(メタデータ) (2022-06-23T22:50:05Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Knowledge Distillation with the Reused Teacher Classifier [31.22117343316628]
簡単な知識蒸留技術では,教師と学生のパフォーマンスギャップを大幅に狭めるのに十分であることを示す。
提案手法は, プロジェクタの追加による圧縮率の最小コストで, 最先端の結果を得る。
論文 参考訳(メタデータ) (2022-03-26T06:28:46Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Sparse Distillation: Speeding Up Text Classification by Using Bigger
Models [49.8019791766848]
最先端の変圧器モデルを軽量の学生モデルに拡張することは、推論時の計算コストを削減する効果的な方法である。
本稿では,学生モデルの設計空間における新しい領域を探索することにより,推論速度の限界をさらに推し進めることを目的とする。
実験の結果,RoBERTa-Large教師の授業成績の97%を6つのテキスト分類タスクのコレクションに保持していることがわかった。
論文 参考訳(メタデータ) (2021-10-16T10:04:14Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。