論文の概要: Class Token and Knowledge Distillation for Multi-head Self-Attention
Speaker Verification Systems
- arxiv url: http://arxiv.org/abs/2111.03842v1
- Date: Sat, 6 Nov 2021 09:47:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 17:53:07.224004
- Title: Class Token and Knowledge Distillation for Multi-head Self-Attention
Speaker Verification Systems
- Title(参考訳): マルチヘッド・セルフアテンション話者検証システムのためのクラストークンと知識蒸留
- Authors: Victoria Mingote, Antonio Miguel, Alfonso Ortega, Eduardo Lleida
- Abstract要約: 本稿では,ディープニューラルネットワーク(DNN)に基づく話者検証システムの性能向上のための3つの新しいアプローチについて検討する。
まず,クラストークンと呼ばれる学習可能なベクトルを用いて,平均的なグローバルプール機構を置換し,埋め込みを抽出する手法を提案する。
第2に,KD(Knowledge Distillation)哲学を用いて教師と学生のペアのネットワークを訓練するための蒸留表現トークンを追加した。
- 参考スコア(独自算出の注目度): 20.55054374525828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores three novel approaches to improve the performance of
speaker verification (SV) systems based on deep neural networks (DNN) using
Multi-head Self-Attention (MSA) mechanisms and memory layers. Firstly, we
propose the use of a learnable vector called Class token to replace the average
global pooling mechanism to extract the embeddings. Unlike global average
pooling, our proposal takes into account the temporal structure of the input
what is relevant for the text-dependent SV task. The class token is
concatenated to the input before the first MSA layer, and its state at the
output is used to predict the classes. To gain additional robustness, we
introduce two approaches. First, we have developed a Bayesian estimation of the
class token. Second, we have added a distilled representation token for
training a teacher-student pair of networks using the Knowledge Distillation
(KD) philosophy, which is combined with the class token. This distillation
token is trained to mimic the predictions from the teacher network, while the
class token replicates the true label. All the strategies have been tested on
the RSR2015-Part II and DeepMine-Part 1 databases for text-dependent SV,
providing competitive results compared to the same architecture using the
average pooling mechanism to extract average embeddings.
- Abstract(参考訳): 本稿では,Multi-head Self-Attention(MSA)機構とメモリ層を用いたディープニューラルネットワーク(DNN)に基づく話者検証システムの性能向上のための3つの新しいアプローチを提案する。
まず,クラストークンと呼ばれる学習可能なベクトルを用いて,平均的なグローバルプーリング機構を置き換え,埋め込みを抽出することを提案する。
グローバル平均プールとは異なり、本提案ではテキスト依存SVタスクに関連する入力の時間的構造を考慮に入れている。
クラストークンは、最初のMSA層の前の入力に連結され、出力時の状態がクラスを予測するために使用される。
さらなる堅牢性を得るために、我々は2つのアプローチを導入する。
まず,クラストークンのベイズ推定法を開発した。
第2に,KD(Knowledge Distillation)哲学とクラストークンを組み合わせることで,教師と学生のペアのネットワークを訓練するための蒸留表現トークンを追加した。
この蒸留トークンは教師ネットワークからの予測を模倣するように訓練され、クラストークンは真のラベルを複製する。
すべての戦略は、テキスト依存sv用のrsr2015-part iiとdeepmine-part 1データベースでテストされており、平均的なプール機構を使用して平均的な埋め込みを抽出するのと同等のアーキテクチャと比較して、競争力のある結果を提供している。
関連論文リスト
- Incubating Text Classifiers Following User Instruction with Nothing but LLM [37.92922713921964]
任意のクラス定義(ユーザ・インストラクション)を与えられたテキスト分類データを生成するフレームワークを提案する。
提案したインキュベータは、複雑で相互に依存したクラスを処理できる最初のフレームワークです。
論文 参考訳(メタデータ) (2024-04-16T19:53:35Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - PromptKD: Unsupervised Prompt Distillation for Vision-Language Models [40.858721356497085]
本稿では,教師モデルの知識を軽量ターゲットモデルに伝達することを目的とした,教師なしドメインプロンプト蒸留フレームワークを提案する。
本フレームワークは,2つの異なる段階から構成される。初期段階では,ドメイン(フェーショット)ラベルを用いて,大規模なCLIP教師モデルを事前訓練する。
その後の段階では、記憶されたクラスベクトルを教師と生徒の画像エンコーダ間で共有し、予測ロジットを算出する。
論文 参考訳(メタデータ) (2024-03-05T08:53:30Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Training ELECTRA Augmented with Multi-word Selection [53.77046731238381]
本稿では,マルチタスク学習に基づくELECTRAの改良を目的としたテキストエンコーダ事前学習手法を提案する。
具体的には、識別器を訓練し、置換トークンを同時に検出し、候補集合から元のトークンを選択する。
論文 参考訳(メタデータ) (2021-05-31T23:19:00Z) - UIUC_BioNLP at SemEval-2021 Task 11: A Cascade of Neural Models for
Structuring Scholarly NLP Contributions [1.5942130010323128]
本稿では,文分類,文認識,三重抽出を行うニューラルネットワークのカスケードを提案する。
BERT-CRFモデルを用いて、コントリビューション文中の関連するフレーズを認識し、特徴付ける。
本システムは第1相評価では第2位,第2相評価では両部で第1位であった。
論文 参考訳(メタデータ) (2021-05-12T05:24:35Z) - An evidential classifier based on Dempster-Shafer theory and deep
learning [6.230751621285322]
Dempster-Shafer(DS)理論に基づく新しい分類システムと、集合値分類のための畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
画像認識,信号処理,セマンティック-リレーションシップ分類タスクに関する実験では,深部CNN,DS層,期待されるユーティリティ層の組み合わせにより,分類精度の向上が図られている。
論文 参考訳(メタデータ) (2021-03-25T01:29:05Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - Digit Image Recognition Using an Ensemble of One-Versus-All Deep Network
Classifiers [2.385916960125935]
本稿では,デジタル画像認識とテストのための新しい手法を実装し,その上で評価する。
アンサンブル内の全てのネットワークは、SGDMA(Gradient Descent with Momentum)を用いたOVAトレーニング技術によって訓練されている。
提案手法は,全データセットの数値画像認識におけるベースラインよりも優れている。
論文 参考訳(メタデータ) (2020-06-28T15:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。