論文の概要: Computing with Hypervectors for Efficient Speaker Identification
- arxiv url: http://arxiv.org/abs/2208.13285v1
- Date: Sun, 28 Aug 2022 20:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 14:53:59.171328
- Title: Computing with Hypervectors for Efficient Speaker Identification
- Title(参考訳): 話者同定のためのハイパーベクタを用いた計算
- Authors: Ping-Chen Huang, Denis Kleyko, Jan M. Rabaey, Bruno A. Olshausen,
Pentti Kanerva
- Abstract要約: 本研究では,高次元ランダムベクトルを用いた話者識別手法を提案する。
トレーニングデータを通過するのは1.02kのアクティブパラメータと128分のパスだけで,1,251人のVoxCeleb1データセット上でTop-1とTop-5のスコアが31%と52%に達したのです。
- 参考スコア(独自算出の注目度): 6.716780677177984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a method to identify speakers by computing with high-dimensional
random vectors. Its strengths are simplicity and speed. With only 1.02k active
parameters and a 128-minute pass through the training data we achieve Top-1 and
Top-5 scores of 31% and 52% on the VoxCeleb1 dataset of 1,251 speakers. This is
in contrast to CNN models requiring several million parameters and orders of
magnitude higher computational complexity for only a 2$\times$ gain in
discriminative power as measured in mutual information. An additional 92
seconds of training with Generalized Learning Vector Quantization (GLVQ) raises
the scores to 48% and 67%. A trained classifier classifies 1 second of speech
in 5.7 ms. All processing was done on standard CPU-based machines.
- Abstract(参考訳): 本研究では,高次元ランダムベクトルを用いた話者識別手法を提案する。
その強みは単純さとスピードだ。
トレーニングデータを通過するのは1.02kのアクティブパラメータと128分のパスだけで,1,251人のVoxCeleb1データセット上でTop-1とTop-5のスコアが31%と52%に達したのです。
これは、相互情報で測定される識別力の2$\times$ゲインのみに対して、数百万のパラメータと桁以上の計算複雑性を必要とするcnnモデルとは対照的である。
一般学習ベクトル量子化(GLVQ)による92秒のトレーニングにより、スコアは48%と67%に向上した。
訓練された分類器は5.7ミリ秒で音声の1秒間を分類する。
関連論文リスト
- From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Efficient Self-supervised Learning with Contextualized Target
Representations for Vision, Speech and Language [60.12197397018094]
data2vecは学習目標であり、いくつかのモダリティにまたがって一般化します。
マスクされたトークンをエンコードしたり、高速な畳み込みデコーダを使ったり、教師表現の構築に力を注いだりはしません。
ImageNet-1K画像分類の実験では、Data2vec 2.0は16.4倍低いトレーニング時間でMasked Autoencodersの精度と一致している。
論文 参考訳(メタデータ) (2022-12-14T22:13:11Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z) - Identification of mental fatigue in language comprehension tasks based
on EEG and deep learning [3.4325088940742647]
本研究は,言語理解課題における疲労検出のための実験設計を提案する。
健常者15名で14チャンネルの無線脳波検出器から脳波信号を得た。
畳み込みニューラルネットワーク(CNN)の分類精度は他の分類方法よりも高い。
論文 参考訳(メタデータ) (2021-04-14T14:00:57Z) - A Study of Few-Shot Audio Classification [2.1989764549743476]
ファウショット学習(Few-shot learning)は、モデルが新しいクラスに一般化できるように設計された機械学習の一種である。
我々は,VoxCelebデータセットとICSI Meeting Corpusの話者識別モデルを評価し,それぞれ93.5%,54.0%の5ショット5ウェイ精度を得た。
また、Kineetics600データセットとAudioSetの少数ショットサブセットを用いてオーディオからのアクティビティ分類を評価し、それぞれ51.5%と35.2%の精度でYouTubeビデオから抽出した。
論文 参考訳(メタデータ) (2020-12-02T22:19:16Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - MANTRA: A Machine Learning reference lightcurve dataset for astronomical
transient event recognition [2.208166456405677]
カタリーナ・リアルタイム・リアルタイム・トランジェント・サーベイから構築された4869トランジェントおよび71207非トランジェント・オブジェクト・ライトカーブのデータセットにパブリックアクセスする。
データセットに含まれるいくつかのクラスは、超新星、白亜紀変光星、活動銀河核、高い固有運動星、ブレザー、フレアである。
二進的/非過渡的(transient/non-transient)と八進的(8-class)の2つの分類課題における定量的性能を評価する。
論文 参考訳(メタデータ) (2020-06-23T17:06:49Z) - wav2vec 2.0: A Framework for Self-Supervised Learning of Speech
Representations [51.25118580050847]
音声のみから強力な表現を学習し、書き起こされた音声を微調整することで、最高の半教師付き手法よりも優れた性能を発揮することを示す。
wav2vec 2.0は、潜在空間で入力された音声を隠蔽し、共同で学習される潜在表現の量子化上で定義された対照的なタスクを解決する。
論文 参考訳(メタデータ) (2020-06-20T02:35:02Z) - Vector-quantized neural networks for acoustic unit discovery in the
ZeroSpeech 2020 challenge [26.114011076658237]
音声の離散表現を学習する問題に対処する2つのニューラルモデルを提案する。
第1モデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。
第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる
我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータをモデルとして評価した。
論文 参考訳(メタデータ) (2020-05-19T13:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。