論文の概要: Multi-stream Convolutional Neural Network with Frequency Selection for
Robust Speaker Verification
- arxiv url: http://arxiv.org/abs/2012.11159v2
- Date: Tue, 12 Jan 2021 11:29:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:19:04.231953
- Title: Multi-stream Convolutional Neural Network with Frequency Selection for
Robust Speaker Verification
- Title(参考訳): ロバスト話者照合のための周波数選択付きマルチストリーム畳み込みニューラルネットワーク
- Authors: Wei Yao, Shen Chen, Jiamin Cui, Yaolin Lou
- Abstract要約: マルチストリーム畳み込みニューラルネットワーク(CNN)による話者検証のための新しいフレームワークを提案する。
提案フレームワークは,複数のストリームから発生する多様な時間的埋め込みに対応し,音響モデリングの堅牢性を高める。
voxcelebデータセットの広範な実験を行い,マルチストリームcnnが単一ストリームベースラインを大きく上回ることを示した。
- 参考スコア(独自算出の注目度): 2.3437178262034095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker verification aims to verify whether an input speech corresponds to
the claimed speaker, and conventionally, this kind of system is deployed based
on single-stream scenario, wherein the feature extractor operates in full
frequency range. In this paper, we hypothesize that machine can learn enough
knowledge to do classification task when listening to partial frequency range
instead of full frequency range, which is so called frequency selection
technique, and further propose a novel framework of multi-stream Convolutional
Neural Network (CNN) with this technique for speaker verification tasks. The
proposed framework accommodates diverse temporal embeddings generated from
multiple streams to enhance the robustness of acoustic modeling. For the
diversity of temporal embeddings, we consider feature augmentation with
frequency selection, which is to manually segment the full-band of frequency
into several sub-bands, and the feature extractor of each stream can select
which sub-bands to use as target frequency domain. Different from conventional
single-stream solution wherein each utterance would only be processed for one
time, in this framework, there are multiple streams processing it in parallel.
The input utterance for each stream is pre-processed by a frequency selector
within specified frequency range, and post-processed by mean normalization. The
normalized temporal embeddings of each stream will flow into a pooling layer to
generate fused embeddings. We conduct extensive experiments on VoxCeleb
dataset, and the experimental results demonstrate that multi-stream CNN
significantly outperforms single-stream baseline with 20.53 % of relative
improvement in minimum Decision Cost Function (minDCF).
- Abstract(参考訳): 話者検証は、入力音声がクレーム話者に対応するかどうかを検証することを目的としており、従来は、特徴抽出器が全周波数範囲で動作する単一ストリームシナリオに基づいて、この種のシステムが展開されている。
本稿では,完全周波数範囲ではなく部分周波数範囲を聴きながら分類タスクを行うのに十分な知識を機械が学べる,いわゆる周波数選択手法を仮定し,この手法を話者照合タスクに適用したマルチストリーム畳み込みニューラルネットワーク(cnn)の新たな枠組みを提案する。
提案フレームワークは,複数のストリームから発生する多様な時間的埋め込みに対応し,音響モデリングの堅牢性を高める。
時間的埋め込みの多様性については,周波数の完全帯域を複数のサブバンドに手作業で分割し,各ストリームの特徴抽出器が対象周波数領域として使用するサブバンドを選択することで,周波数選択による特徴拡張を検討する。
従来の単一ストリームソリューションとは異なり、各発話は一度だけ処理されるが、このフレームワークでは複数のストリームが並列に処理される。
各ストリームの入力発話は、所定の周波数範囲内の周波数セレクタによって前処理され、平均正規化により後処理される。
各ストリームの正規化された時間埋め込みはプール層に流れ込み、融合した埋め込みを生成する。
本稿では,voxcelebデータセットの広範な実験を行い,マルチストリームcnnが最小決定コスト関数 (mindcf) の相対的改善率20.53パーセントで,シングルストリームベースラインを有意に上回っていることを示す。
関連論文リスト
- Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Frequency-Aware Masked Autoencoders for Multimodal Pretraining on Biosignals [7.381259294661687]
周波数空間における生体信号の表現をパラメータ化することを学ぶ周波数対応マスク付きオートエンコーダを提案する。
得られたアーキテクチャは、事前トレーニング中にマルチモーダル情報を効果的に利用し、テスト時に様々なタスクやモダリティにシームレスに適応できる。
論文 参考訳(メタデータ) (2023-09-12T02:59:26Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Sampling-Frequency-Independent Audio Source Separation Using Convolution
Layer Based on Impulse Invariant Method [67.24600975813419]
単一深層ニューラルネットワークを用いて任意のサンプリング周波数を処理できる畳み込み層を提案する。
提案層の導入により,従来の音源分離モデルが未知のサンプリング周波数でも一貫して動作できることを示した。
論文 参考訳(メタデータ) (2021-05-10T02:33:42Z) - Frequency Gating: Improved Convolutional Neural Networks for Speech
Enhancement in the Time-Frequency Domain [37.722450363816144]
本稿では、CNNのカーネルの乗算重みを計算するために、周波数ゲーティングと呼ばれる手法を提案する。
スキップ接続を用いたオートエンコーダニューラルネットワークの実験では、局所的および周波数的にゲーティングの両方がベースラインを上回っている。
拡張短時間客観的インテリジェンススコア(ESTOI)に基づく損失関数を導入し、標準平均二乗誤差(MSE)損失関数より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-08T22:04:00Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。