Fugu-MT 論文翻訳(概要): On the Use of Audio Fingerprinting Features for Speech Enhancement with Generative Adversarial Network

論文の概要: On the Use of Audio Fingerprinting Features for Speech Enhancement with Generative Adversarial Network

arxiv url: http://arxiv.org/abs/2007.13258v1
Date: Mon, 27 Jul 2020 00:44:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-06 11:46:06.231487
Title: On the Use of Audio Fingerprinting Features for Speech Enhancement with Generative Adversarial Network
Title（参考訳）: 生成型adversarial networkを用いた音声強調における音声フィンガープリント機能の利用について
Authors: Farnood Faraji, Yazid Attabi, Benoit Champagne and Wei-Ping Zhu
Abstract要約: 短周期フーリエ変換(STFT)やMel-Frequency Cepstral Coefficients(MFCC)のような時間周波数領域の特徴は、多くのアプローチで好まれる。 MFCCはコンパクトな表現を提供するが、各メルスケールサブバンドのエネルギーのダイナミクスと分布を無視する。本研究では、GAN(Generative Adversarial Network)に基づく音声強調システムを構築し、AFPと正規化スペクトルサブバンドセントロイド(NSSC)を組み合わせた実験を行った。
参考スコア（独自算出の注目度）: 24.287237963000745
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of learning-based methods in speech enhancement has revived the need for robust and reliable training features that can compactly represent speech signals while preserving their vital information. Time-frequency domain features, such as the Short-Term Fourier Transform (STFT) and Mel-Frequency Cepstral Coefficients (MFCC), are preferred in many approaches. While the MFCC provide for a compact representation, they ignore the dynamics and distribution of energy in each mel-scale subband. In this work, a speech enhancement system based on Generative Adversarial Network (GAN) is implemented and tested with a combination of Audio FingerPrinting (AFP) features obtained from the MFCC and the Normalized Spectral Subband Centroids (NSSC). The NSSC capture the locations of speech formants and complement the MFCC in a crucial way. In experiments with diverse speakers and noise types, GAN-based speech enhancement with the proposed AFP feature combination achieves the best objective performance while reducing memory requirements and training time.
Abstract（参考訳）: 音声強調における学習に基づく手法の出現により、音声信号のコンパクトな表現が可能な堅牢で信頼性の高い訓練機能の必要性が復活した。短周期フーリエ変換(STFT)やMel-Frequency Cepstral Coefficients(MFCC)のような時間周波数領域の特徴は、多くのアプローチで好まれる。 MFCCはコンパクトな表現を提供するが、各メルスケールサブバンドのエネルギーのダイナミクスと分布を無視する。本研究では,MFCC から得られた音声フィンガープリンティング (AFP) 機能と正規化スペクトルサブバンド・セントロイド (NSSC) を組み合わせたGAN(Generative Adversarial Network) に基づく音声強調システムを実装し,実験を行った。 NSSCは音声フォルマントの位置を捉え、重要な方法でMFCCを補完する。多様な話者とノイズタイプを用いた実験では、提案したAFP機能の組み合わせによるGANに基づく音声強調は、メモリ要求とトレーニング時間を削減するとともに、最高の目標性能を達成する。

関連論文リスト

LMFCA-Net: A Lightweight Model for Multi-Channel Speech Enhancement with Efficient Narrow-Band and Cross-Band Attention [4.489833733302935]
本稿では,完全連結注意(LMFCA-Net)を分離した軽量マルチチャネル音声強調ネットワークを提案する。提案するLMFCA-Netは、時間軸切り離し完全連結注意(T-FCA)と周波数軸切り離し完全連結注意(F-FCA)機構を導入し、長距離狭帯域およびクロスバンド情報を繰り返しユニットなしで効果的に捕捉する。
論文参考訳（メタデータ） (2025-02-17T05:42:03Z)
FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文参考訳（メタデータ） (2025-02-06T07:24:34Z)
Advanced Clustering Techniques for Speech Signal Enhancement: A Review and Metanalysis of Fuzzy C-Means, K-Means, and Kernel Fuzzy C-Means Methods [0.6530047924748276]
音声信号処理は、ノイズの多い環境での音声データの明瞭さと理解性を改善する。音声認識の質は、テクノロジー駆動通信におけるユーザ体験とアクセシビリティに直接影響を及ぼす。本稿では,高度なクラスタリング手法,特にKFCM(Kernel Fuzzy C-Means)法について検討する。
論文参考訳（メタデータ） (2024-09-28T20:21:05Z)
SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。 SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文参考訳（メタデータ） (2024-01-24T15:25:01Z)
RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。 RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文参考訳（メタデータ） (2023-09-29T12:38:00Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Frequency-centroid features for word recognition of non-native English speakers [1.9249287163937974]
本研究の目的は,Mel周波数ケプストラム係数(MFCC)の相補的特徴について検討することである。 FCは音声スペクトルの異なる帯域のスペクトル中心をカプセル化し、Melフィルタバンクによって定義されている。 2段階の畳み込みニューラルネットワーク(CNN)は、アラビア語、フランス語、スペイン語のアクセントで発する英語の単語の特徴をモデル化するために用いられる。
論文参考訳（メタデータ） (2022-06-14T21:19:49Z)
CMGAN: Conformer-based Metric GAN for Speech Enhancement [6.480967714783858]
本稿では,時間周波数領域に対する共振器を用いた距離生成逆ネットワーク(CMGAN)を提案する。本生成装置では,2段コンバータブロックを用いて,全等級および複雑なスペクトログラム情報を集約する。デコーダ段階では、大きさと複素スペクトルの推定を分離し、拡張された音声を再構成するために共同で組み込む。
論文参考訳（メタデータ） (2022-03-28T23:53:34Z)
Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。 CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文参考訳（メタデータ） (2022-03-25T15:04:51Z)
MFA: TDNN with Multi-scale Frequency-channel Attention for Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文参考訳（メタデータ） (2022-02-03T14:57:05Z)
Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。 TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2021-03-30T08:09:49Z)
Data Fusion for Audiovisual Speaker Localization: Extending Dynamic Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文参考訳（メタデータ） (2021-02-23T09:59:31Z)
Gated Recurrent Fusion with Joint Training Framework for Robust End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。 GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文参考訳（メタデータ） (2020-11-09T08:52:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。