論文の概要: Towards an Efficient Voice Identification Using Wav2Vec2.0 and HuBERT
Based on the Quran Reciters Dataset
- arxiv url: http://arxiv.org/abs/2111.06331v1
- Date: Thu, 11 Nov 2021 17:44:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 13:07:41.565519
- Title: Towards an Efficient Voice Identification Using Wav2Vec2.0 and HuBERT
Based on the Quran Reciters Dataset
- Title(参考訳): Quran Reciters データセットに基づく Wav2Vec2.0 と HuBERT を用いた効率的な音声識別
- Authors: Aly Moustafa and Salah A. Aly
- Abstract要約: We developed a Deep learning model for Arabic speakers identification by using Wav2Vec2.0 and HuBERT audio representation learning tools。
この実験により、ある話者に対する任意の波動信号が98%と97.1%の精度で識別できることが保証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current authentication and trusted systems depend on classical and biometric
methods to recognize or authorize users. Such methods include audio speech
recognitions, eye, and finger signatures. Recent tools utilize deep learning
and transformers to achieve better results. In this paper, we develop a deep
learning constructed model for Arabic speakers identification by using
Wav2Vec2.0 and HuBERT audio representation learning tools. The end-to-end
Wav2Vec2.0 paradigm acquires contextualized speech representations learnings by
randomly masking a set of feature vectors, and then applies a transformer
neural network. We employ an MLP classifier that is able to differentiate
between invariant labeled classes. We show several experimental results that
safeguard the high accuracy of the proposed model. The experiments ensure that
an arbitrary wave signal for a certain speaker can be identified with 98% and
97.1% accuracies in the cases of Wav2Vec2.0 and HuBERT, respectively.
- Abstract(参考訳): 現在の認証および信頼性システムは、ユーザを認識または承認するための古典的および生体的手法に依存している。
このような手法には、音声認識、目、指の署名が含まれる。
最近のツールはディープラーニングとトランスフォーマーを使ってより良い結果を得る。
本稿では,Wav2Vec2.0とHuBERT音声表現学習ツールを用いて,アラビア語話者識別のためのディープラーニング構築モデルを開発する。
エンドツーエンドのwav2vec2.0パラダイムは、特徴ベクトルのセットをランダムにマスキングして文脈化音声表現学習を取得し、トランスフォーマーニューラルネットワークを適用する。
我々は、不変ラベル付きクラスを区別できるMPP分類器を用いる。
本研究は,提案モデルの高精度性を確保する実験結果を示す。
この実験により、ある話者に対する任意の波信号が、それぞれWav2Vec2.0とHuBERTの場合の98%と97.1%の精度で識別できる。
関連論文リスト
- WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [65.30937248905958]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - An Effective Transformer-based Contextual Model and Temporal Gate
Pooling for Speaker Identification [0.0]
本稿では,トランスフォーマーに基づく文脈モデルを適用した,効果的なエンドツーエンド話者識別モデルを提案する。
話者識別のための強力な学習能力を備えたプール手法であるテンポラルゲートプーリングを提案する。
提案手法は28.5Mパラメータで87.1%の精度を達成し、317.7Mパラメータでwav2vec2に匹敵する精度を示した。
論文 参考訳(メタデータ) (2023-08-22T07:34:07Z) - Speaker and Language Change Detection using Wav2vec2 and Whisper [1.9594639581421422]
音声認識のために事前訓練されたトランスフォーマーネットワークについて検討し,音声認識における話者と言語の変化を検出する能力について検討した。
話者認識は10%程度の誤り率、言語検出エラー率は数パーセントと同等である。
論文 参考訳(メタデータ) (2023-02-18T16:45:30Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Arabic Speech Emotion Recognition Employing Wav2vec2.0 and HuBERT Based
on BAVED Dataset [0.0]
本稿では,アラビア語音声対話のための深層学習構築型感情認識モデルを提案する。
開発モデルは、wav2vec2.0 や HuBERT といったアートオーディオ表現の状態を取り入れている。
我々のモデルの実験と性能は、以前の既知の結果を克服する。
論文 参考訳(メタデータ) (2021-10-09T00:58:12Z) - Multi-task Voice-Activated Framework using Self-supervised Learning [0.9864260997723973]
wav2vec 2.0のような自己教師型学習手法は、未ラベルおよび未転写音声データから音声表現を学習する上で有望な結果を示している。
本稿では,様々な音声アクティベートタスクに対して,事前学習したwav2vec 2.0モデルを適用するための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T19:28:57Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。