論文の概要: On the Use of Audio Fingerprinting Features for Speech Enhancement with
Generative Adversarial Network
- arxiv url: http://arxiv.org/abs/2007.13258v1
- Date: Mon, 27 Jul 2020 00:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 11:46:06.231487
- Title: On the Use of Audio Fingerprinting Features for Speech Enhancement with
Generative Adversarial Network
- Title(参考訳): 生成型adversarial networkを用いた音声強調における音声フィンガープリント機能の利用について
- Authors: Farnood Faraji, Yazid Attabi, Benoit Champagne and Wei-Ping Zhu
- Abstract要約: 短周期フーリエ変換(STFT)やMel-Frequency Cepstral Coefficients(MFCC)のような時間周波数領域の特徴は、多くのアプローチで好まれる。
MFCCはコンパクトな表現を提供するが、各メルスケールサブバンドのエネルギーのダイナミクスと分布を無視する。
本研究では、GAN(Generative Adversarial Network)に基づく音声強調システムを構築し、AFPと正規化スペクトルサブバンドセントロイド(NSSC)を組み合わせた実験を行った。
- 参考スコア(独自算出の注目度): 24.287237963000745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of learning-based methods in speech enhancement has revived the
need for robust and reliable training features that can compactly represent
speech signals while preserving their vital information. Time-frequency domain
features, such as the Short-Term Fourier Transform (STFT) and Mel-Frequency
Cepstral Coefficients (MFCC), are preferred in many approaches. While the MFCC
provide for a compact representation, they ignore the dynamics and distribution
of energy in each mel-scale subband. In this work, a speech enhancement system
based on Generative Adversarial Network (GAN) is implemented and tested with a
combination of Audio FingerPrinting (AFP) features obtained from the MFCC and
the Normalized Spectral Subband Centroids (NSSC). The NSSC capture the
locations of speech formants and complement the MFCC in a crucial way. In
experiments with diverse speakers and noise types, GAN-based speech enhancement
with the proposed AFP feature combination achieves the best objective
performance while reducing memory requirements and training time.
- Abstract(参考訳): 音声強調における学習に基づく手法の出現により、音声信号のコンパクトな表現が可能な堅牢で信頼性の高い訓練機能の必要性が復活した。
短周期フーリエ変換(STFT)やMel-Frequency Cepstral Coefficients(MFCC)のような時間周波数領域の特徴は、多くのアプローチで好まれる。
MFCCはコンパクトな表現を提供するが、各メルスケールサブバンドのエネルギーのダイナミクスと分布を無視する。
本研究では,MFCC から得られた音声フィンガープリンティング (AFP) 機能と正規化スペクトルサブバンド・セントロイド (NSSC) を組み合わせたGAN(Generative Adversarial Network) に基づく音声強調システムを実装し,実験を行った。
NSSCは音声フォルマントの位置を捉え、重要な方法でMFCCを補完する。
多様な話者とノイズタイプを用いた実験では、提案したAFP機能の組み合わせによるGANに基づく音声強調は、メモリ要求とトレーニング時間を削減するとともに、最高の目標性能を達成する。
関連論文リスト
- SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - RTFS-Net: Recurrent time-frequency modelling for efficient audio-visual
speech separation [21.278294846228935]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Diffusion Conditional Expectation Model for Efficient and Robust Target
Speech Extraction [73.43534824551236]
ターゲット音声抽出(TSE)のための条件拡散予測モデル(DCEM)という効率的な生成手法を提案する。
ノイズとクリーンな条件の両方で、マルチとシングルスピーカーのシナリオを処理できる。
本手法は,従来の手法よりも侵入的指標と非侵入的指標の両方で優れていた。
論文 参考訳(メタデータ) (2023-09-25T04:58:38Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Multi-Frequency Information Enhanced Channel Attention Module for
Speaker Representation Learning [41.44950556040058]
本稿では,多周波情報を活用し,新しい2つの注目モジュールを設計することを提案する。
提案したアテンションモジュールは、DCTに基づいて、複数の周波数成分からより多くの話者情報を効果的に取得することができる。
実験の結果,提案するSFSCおよびMFSCアテンションモジュールは,より識別性の高い話者表現を効率的に生成できることがわかった。
論文 参考訳(メタデータ) (2022-07-10T21:19:36Z) - Frequency-centroid features for word recognition of non-native English
speakers [1.9249287163937974]
本研究の目的は,Mel周波数ケプストラム係数(MFCC)の相補的特徴について検討することである。
FCは音声スペクトルの異なる帯域のスペクトル中心をカプセル化し、Melフィルタバンクによって定義されている。
2段階の畳み込みニューラルネットワーク(CNN)は、アラビア語、フランス語、スペイン語のアクセントで発する英語の単語の特徴をモデル化するために用いられる。
論文 参考訳(メタデータ) (2022-06-14T21:19:49Z) - CMGAN: Conformer-based Metric GAN for Speech Enhancement [6.480967714783858]
本稿では,時間周波数領域に対する共振器を用いた距離生成逆ネットワーク(CMGAN)を提案する。
本生成装置では,2段コンバータブロックを用いて,全等級および複雑なスペクトログラム情報を集約する。
デコーダ段階では、大きさと複素スペクトルの推定を分離し、拡張された音声を再構成するために共同で組み込む。
論文 参考訳(メタデータ) (2022-03-28T23:53:34Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。