論文の概要: On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion
and Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2305.12540v1
- Date: Sun, 21 May 2023 18:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 19:46:36.508813
- Title: On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion
and Automatic Speech Recognition
- Title(参考訳): 協調学習音声感情と自動音声認識の有効性とノイズロバスト性について
- Authors: Lokesh Bansal, S. Pavankumar Dubagunta, Malolan Chetlur, Pushpak
Jagtap, Aravind Ganapathiraju
- Abstract要約: 低リソース環境下でのASR-SER共同学習手法について検討する。
共同学習は、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%改善することができる。
全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。
- 参考スコア(独自算出の注目度): 6.006652562747009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: New-age conversational agent systems perform both speech emotion recognition
(SER) and automatic speech recognition (ASR) using two separate and often
independent approaches for real-world application in noisy environments. In
this paper, we investigate a joint ASR-SER multitask learning approach in a
low-resource setting and show that improvements are observed not only in SER,
but also in ASR. We also investigate the robustness of such jointly trained
models to the presence of background noise, babble, and music. Experimental
results on the IEMOCAP dataset show that joint learning can improve ASR word
error rate (WER) and SER classification accuracy by 10.7% and 2.3% respectively
in clean scenarios. In noisy scenarios, results on data augmented with MUSAN
show that the joint approach outperforms the independent ASR and SER approaches
across many noisy conditions. Overall, the joint ASR-SER approach yielded more
noise-resistant models than the independent ASR and SER approaches.
- Abstract(参考訳): 音声感情認識(SER)と自動音声認識(ASR)の両方を、ノイズの多い環境で現実の応用のために2つの独立した、しばしば独立したアプローチを用いて行う。
本稿では,低リソース環境でのASR-SERマルチタスク学習を共同で検討し,SERだけでなくASRでも改善が観察できることを示す。
また,背景雑音,バブル,音楽の存在に対する協調学習モデルの堅牢性についても検討した。
IEMOCAPデータセットの実験結果によると、共同学習はクリーンシナリオにおいて、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%向上させることができる。
ノイズのシナリオでは、MUSANを付加したデータの結果、結合アプローチは独立したASRおよびSERアプローチよりも多くのノイズ条件で優れることが示された。
全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。
関連論文リスト
- Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance [7.882996636086014]
自動音声認識(ASR)モデルとその使用法は公平かつ公平であることが重要である。
この研究は、現在の最先端のニューラルネットワークベースのASRシステムの性能を調べることによって、この格差の根底にある要因を理解することを目的としている。
論文 参考訳(メタデータ) (2024-07-19T02:14:17Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - On the Effectiveness of ASR Representations in Real-world Noisy Speech
Emotion Recognition [26.013815255299342]
音声の感情認識(NSER)を効果的に行う試みを提案する。
ノイズキャンバス特徴抽出器として自動音声認識(ASR)モデルを採用し,雑音の多い音声の非音声情報を除去する。
実験の結果,提案手法は従来のノイズ低減法に比べてNSER性能が向上し,2)自己教師あり学習手法よりも優れ,3)ASR文字起こしや音声音声の真理書き起こしによるテキストベースアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-11-13T05:45:55Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - Fusing ASR Outputs in Joint Training for Speech Emotion Recognition [14.35400087127149]
共同学習音声認識(SER)のためのパイプラインに自動音声認識(ASR)出力を融合する手法を提案する。
共同ASR-SERトレーニングでは、階層的コアテンション融合アプローチを用いて、ASRとテキストの出力の両方を組み込むことで、SERの性能が向上する。
また,IEMOCAPにおける単語誤り率解析や,ASRとSERの関係をよりよく理解するために,Wav2vec 2.0モデルの層差解析も提案する。
論文 参考訳(メタデータ) (2021-10-29T11:21:17Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - ASR-GLUE: A New Multi-task Benchmark for ASR-Robust Natural Language
Understanding [42.80343041535763]
自動音声認識(ASR)による誤りに対する自然言語理解システムの堅牢性について検討する。
ASR-GLUEベンチマーク(ASR-GLUE benchmark)は、ASRエラー下でのモデルの性能を評価するための6つの異なるNLUタスクの新たなコレクションである。
論文 参考訳(メタデータ) (2021-08-30T08:11:39Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。