論文の概要: DeepVOX: Discovering Features from Raw Audio for Speaker Recognition in
Non-ideal Audio Signals
- arxiv url: http://arxiv.org/abs/2008.11668v2
- Date: Mon, 13 Jun 2022 03:39:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 22:22:17.793743
- Title: DeepVOX: Discovering Features from Raw Audio for Speaker Recognition in
Non-ideal Audio Signals
- Title(参考訳): DeepVOX:非理想的音声信号における話者認識のための生音声の特徴発見
- Authors: Anurag Chowdhury, Arun Ross
- Abstract要約: 本稿では,大量の音声からフィルタバンク設計を推定する深層学習手法を提案する。
このようなフィルタバンクの目的は、劣化、短時間、多言語音声などの非理想的音声条件に対して頑健な特徴を抽出することである。
- 参考スコア(独自算出の注目度): 19.053492887246826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speaker recognition algorithms typically use pre-defined
filterbanks, such as Mel-Frequency and Gammatone filterbanks, for
characterizing speech audio. However, it has been observed that the features
extracted using these filterbanks are not resilient to diverse audio
degradations. In this work, we propose a deep learning-based technique to
deduce the filterbank design from vast amounts of speech audio. The purpose of
such a filterbank is to extract features robust to non-ideal audio conditions,
such as degraded, short duration, and multi-lingual speech. To this effect, a
1D convolutional neural network is designed to learn a time-domain filterbank
called DeepVOX directly from raw speech audio. Secondly, an adaptive triplet
mining technique is developed to efficiently mine the data samples best suited
to train the filterbank. Thirdly, a detailed ablation study of the DeepVOX
filterbanks reveals the presence of both vocal source and vocal tract
characteristics in the extracted features. Experimental results on VOXCeleb2,
NIST SRE 2008, 2010 and 2018, and Fisher speech datasets demonstrate the
efficacy of the DeepVOX features across a variety of degraded, short duration,
and multi-lingual speech. The DeepVOX features also shown to improve the
performance of existing speaker recognition algorithms, such as the
xVector-PLDA and the iVector-PLDA.
- Abstract(参考訳): 自動音声認識アルゴリズムは通常、メル周波数やガンマタンフィルタバンクなどの予め定義されたフィルタバンクを使用して音声音声を特徴付ける。
しかし、これらのフィルタバンクを用いて抽出した特徴は、多様なオーディオ劣化に対する耐性がないことが観察されている。
本研究では,大量の音声からフィルタバンク設計を推定する深層学習に基づく手法を提案する。
このようなフィルタバンクの目的は、劣化、短命、多言語音声など、理想的でない音声条件にロバストな特徴を抽出することである。
この効果のために、1D畳み込みニューラルネットワークは生音声から直接DeepVOXと呼ばれる時間領域のフィルタバンクを学習するように設計されている。
次に,フィルタバンクの訓練に適したデータサンプルを効率的にマイニングするために,適応三重項マイニング手法を開発した。
第3に,deepvoxフィルタバンクの詳細なアブレーション研究により,抽出された特徴における声道特性と声道特性の両方の存在が明らかになった。
VOXCeleb2、NIST SRE 2008、2010、2018、およびFisher音声データセットの実験結果は、様々な劣化、短い期間、多言語音声におけるDeepVOX特徴の有効性を示す。
DeepVOX機能はまた、xVector-PLDAやiVector-PLDAといった既存の話者認識アルゴリズムの性能向上を示す。
関連論文リスト
- ASoBO: Attentive Beamformer Selection for Distant Speaker Diarization in Meetings [4.125756306660331]
話者ダイアリゼーション(SD)は、同一話者に属する音声セグメントをグループ化することを目的としている。
ビームフォーミング(ビームフォーミング、つまり空間フィルタリング)は、マルチマイクロフォンオーディオデータを処理する一般的な方法である。
本稿では,固定空間フィルタのバンクの出力を選択する自己注意型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T13:28:28Z) - DeepFilterNet: Perceptually Motivated Real-Time Speech Enhancement [10.662665274373387]
本稿では,DeepFilterNetを用いたリアルタイム音声強調デモを示す。
我々のモデルは,1スレッドノートブックCPU上で,リアルタイムの0.19を達成しつつ,最先端の音声強調ベンチマークと一致させることができる。
論文 参考訳(メタデータ) (2023-05-14T19:09:35Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - DeepFilterNet: A Low Complexity Speech Enhancement Framework for
Full-Band Audio based on Deep Filtering [9.200520879361916]
ディープフィルタを利用した2段階音声強調フレームワークDeepFilterNetを提案する。
まず、人間の周波数知覚をモデル化したERBスケールゲインを用いてスペクトルエンベロープを強化する。
第2段階では、音声の周期的成分を高めるためにディープフィルタリングを用いる。
論文 参考訳(メタデータ) (2021-10-11T20:03:52Z) - Speakerfilter-Pro: an improved target speaker extractor combines the
time domain and frequency domain [28.830492233611196]
本稿では,従来の話者フィルタモデルに基づく改良された話者抽出器について紹介する。
Speakerfilterは、双方向ゲートリカレントユニット(BGRU)モジュールを使用して、ターゲット話者をアンカー音声から特徴付け、畳み込みリカレントネットワーク(CRN)モジュールを使用して、ターゲット話者をノイズ信号から分離する。
WaveUNetは、時間領域で音声分離を行うのにより良い能力があることが証明されている。
論文 参考訳(メタデータ) (2020-10-25T07:30:30Z) - Optimization of data-driven filterbank for automatic speaker
verification [8.175789701289512]
与えられた音声データからフィルタパラメータを最適化する新しいデータ駆動型フィルタ設計法を提案する。
提案手法の主な利点は、ラベルなし音声データの量が非常に少ないことである。
提案するフィルタバンクを用いた音響特性は,既存のメル周波数ケプストラム係数 (MFCC) や音声信号に基づく周波数ケプストラム係数 (SFCC) よりも優れていた。
論文 参考訳(メタデータ) (2020-07-21T11:42:20Z) - SpEx: Multi-Scale Time Domain Speaker Extraction Network [89.00319878262005]
話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の選択的な聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
本研究では,混合音声を音声信号を大域・位相スペクトルに分解する代わりに,マルチスケールの埋め込み係数に変換する時間領域話者抽出ネットワーク(SpEx)を提案する。
論文 参考訳(メタデータ) (2020-04-17T16:13:06Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。