論文の概要: Noise robust speech emotion recognition with signal-to-noise ratio
adapting speech enhancement
- arxiv url: http://arxiv.org/abs/2309.01164v1
- Date: Sun, 3 Sep 2023 13:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 21:00:36.467732
- Title: Noise robust speech emotion recognition with signal-to-noise ratio
adapting speech enhancement
- Title(参考訳): 音声強調に適応した信号対雑音比を用いた雑音ロバスト音声感情認識
- Authors: Yu-Wen Chen, Julia Hirschberg, Yu Tsao
- Abstract要約: 音声感情認識(SER)はしばしば背景雑音による性能低下を経験する。
本研究では,ノイズロバスト音声認識システムであるNRSERを提案する。
- 参考スコア(独自算出の注目度): 29.783878253410506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition (SER) often experiences reduced performance due to
background noise. In addition, making a prediction on signals with only
background noise could undermine user trust in the system. In this study, we
propose a Noise Robust Speech Emotion Recognition system, NRSER. NRSER employs
speech enhancement (SE) to effectively reduce the noise in input signals. Then,
the signal-to-noise-ratio (SNR)-level detection structure and waveform
reconstitution strategy are introduced to reduce the negative impact of SE on
speech signals with no or little background noise. Our experimental results
show that NRSER can effectively improve the noise robustness of the SER system,
including preventing the system from making emotion recognition on signals
consisting solely of background noise. Moreover, the proposed SNR-level
detection structure can be used individually for tasks such as data selection.
- Abstract(参考訳): 音声感情認識(SER)はしばしば背景雑音による性能低下を経験する。
さらに,背景雑音のみによる信号の予測は,ユーザの信頼を損なう可能性がある。
本研究では,雑音にロバストな音声認識システムであるnrserを提案する。
NRSERは音声強調(SE)を用いて入力信号の雑音を効果的に低減する。
次に、信号対雑音比(SNR)レベルの検出構造と波形再構成戦略を導入し、背景雑音の少ない音声信号に対するSEの負の影響を低減する。
実験の結果,NRSERは背景雑音のみからなる信号に対する感情認識の防止など,SERシステムの雑音堅牢性を効果的に向上できることがわかった。
さらに,提案したSNRレベルの検出構造は,データ選択などのタスクに対して個別に使用することができる。
関連論文リスト
- TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition [29.756961194844717]
提案したTRNetは,一致した雑音環境と一致しない雑音環境の両方において,提案方式の堅牢性を大幅に向上させる。
その結果,提案方式は,一致した環境と一致しない環境の両方において,提案方式のロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-19T16:09:17Z) - Signal-noise separation using unsupervised reservoir computing [0.0]
本稿では,時系列予測に基づく信号雑音分離手法を提案する。
元の信号と再構成信号の差から雑音分布を推定する。
この方法は機械学習アプローチに基づいており、決定論的信号か雑音分布のどちらかについて事前の知識を必要としない。
論文 参考訳(メタデータ) (2024-04-07T08:31:35Z) - On the Effectiveness of ASR Representations in Real-world Noisy Speech
Emotion Recognition [26.013815255299342]
音声の感情認識(NSER)を効果的に行う試みを提案する。
ノイズキャンバス特徴抽出器として自動音声認識(ASR)モデルを採用し,雑音の多い音声の非音声情報を除去する。
実験の結果,提案手法は従来のノイズ低減法に比べてNSER性能が向上し,2)自己教師あり学習手法よりも優れ,3)ASR文字起こしや音声音声の真理書き起こしによるテキストベースアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-11-13T05:45:55Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional
Resampling [34.565077865854484]
ターゲット条件再サンプリング(NASTAR)を用いた雑音適応音声強調手法を提案する。
NASTARはフィードバック機構を使用して、ノイズ抽出器と検索モデルを介して適応的なトレーニングデータをシミュレートする。
実験結果から,NASTARは1つの雑音のある音声サンプルを効果的に使用して,SEモデルを目標条件に適応させることができることがわかった。
論文 参考訳(メタデータ) (2022-06-18T00:15:48Z) - SAR Despeckling using a Denoising Diffusion Probabilistic Model [52.25981472415249]
スペックルの存在は画像品質を劣化させ、SAR画像理解アプリケーションの性能に悪影響を及ぼす。
本稿では,SAR脱種のための拡散確率モデルであるSAR-DDPMを紹介する。
提案手法は, 最先端の切り離し法と比較して, 定量化と定性化の両面で有意な改善を実現している。
論文 参考訳(メタデータ) (2022-06-09T14:00:26Z) - Zero-shot Blind Image Denoising via Implicit Neural Representations [77.79032012459243]
暗黙的ニューラル表現(INR)のアーキテクチャ的帰納的バイアスを利用した代替的認知戦略を提案する。
提案手法は,低雑音シナリオや実雑音シナリオの広い範囲において,既存のゼロショット復調手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-05T12:46:36Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Removing Noise from Extracellular Neural Recordings Using Fully
Convolutional Denoising Autoencoders [62.997667081978825]
ノイズの多いマルチチャネル入力からクリーンなニューロン活動信号を生成することを学習する完全畳み込みデノイングオートエンコーダを提案する。
シミュレーションデータを用いた実験結果から,提案手法はノイズ崩壊型ニューラルネットワークの品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-09-18T14:51:24Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。