論文の概要: A Change of Heart: Improving Speech Emotion Recognition through
Speech-to-Text Modality Conversion
- arxiv url: http://arxiv.org/abs/2307.11584v1
- Date: Fri, 21 Jul 2023 13:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 12:24:35.691467
- Title: A Change of Heart: Improving Speech Emotion Recognition through
Speech-to-Text Modality Conversion
- Title(参考訳): 心の変化:音声からテキストへのモダリティ変換による音声感情認識の改善
- Authors: Zeinab Sadat Taghavi, Ali Satvaty, Hossein Sameti
- Abstract要約: 本稿では,MELDデータセット上での感情認識性能の向上を目的としたモダリティ変換の概念を提案する。
まず、自動音声認識(ASR)システムを用いたModality-Conversion法と、テキスト分類器を用いた2つの実験を行った。
以上の結果から,第1の手法は有意な結果が得られ,第2の手法はMELDデータセット上でのSER重み付きF1(WF1)スコアにおいて,SOTA(State-of-the-art)音声に基づくアプローチよりも優れていた。
- 参考スコア(独自算出の注目度): 0.6767885381740951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Emotion Recognition (SER) is a challenging task. In this paper, we
introduce a modality conversion concept aimed at enhancing emotion recognition
performance on the MELD dataset. We assess our approach through two
experiments: first, a method named Modality-Conversion that employs automatic
speech recognition (ASR) systems, followed by a text classifier; second, we
assume perfect ASR output and investigate the impact of modality conversion on
SER, this method is called Modality-Conversion++. Our findings indicate that
the first method yields substantial results, while the second method
outperforms state-of-the-art (SOTA) speech-based approaches in terms of SER
weighted-F1 (WF1) score on the MELD dataset. This research highlights the
potential of modality conversion for tasks that can be conducted in alternative
modalities.
- Abstract(参考訳): 音声感情認識(SER)は難しい課題である。
本稿では,MELDデータセット上での感情認識性能の向上を目的としたモダリティ変換の概念を提案する。
まず、自動音声認識(ASR)システムとテキスト分類器を併用したModality-Conversion法、次に、完璧なASR出力を仮定し、SERにおけるModality-Conversionの影響を調査し、この手法をModality-Conversion++と呼ぶ。
以上の結果から,第1の手法は有意な結果が得られ,第2の手法はMELDデータセット上でのSER重み付きF1スコア(WF1)の手法よりも優れていた。
本研究は、代替モダリティで実行できるタスクに対するモダリティ変換の可能性を強調する。
関連論文リスト
- Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Audio-Visual Compound Expression Recognition Method based on Late Modality Fusion and Rule-based Decision [9.436107335675473]
本稿では,第6回ABAWコンペティションの複合表現認識チャレンジにおけるSUNチームの結果について述べる。
本稿では,複合表現認識のための新しい音声視覚手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T12:45:52Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - Modulated Fusion using Transformer for Linguistic-Acoustic Emotion
Recognition [7.799182201815763]
本稿では,感情認識と感情分析のタスクに軽量で強力なソリューションを提供することを目的とする。
我々のモチベーションは、トランスフォーマーと変調に基づく2つのアーキテクチャを提案することである。
論文 参考訳(メタデータ) (2020-10-05T14:46:20Z) - A Transfer Learning Method for Speech Emotion Recognition from Automatic
Speech Recognition [0.0]
本稿では,時間遅延ニューラルネットワークアーキテクチャに基づく音声感情認識における伝達学習手法を示す。
5倍のクロスバリデーションを用いて,最先端技術と比較して高い精度を実現する。
論文 参考訳(メタデータ) (2020-08-06T20:37:22Z) - Constrained Variational Autoencoder for improving EEG based Speech
Recognition Systems [3.5786621294068377]
本稿では、新しい制約付き損失関数を持つリカレントニューラルネットワーク(RNN)に基づく変分オートエンコーダ(VAE)モデルを提案する。
本研究では, 生の脳波特徴から生成された脳波特徴を用いて, 連続的および孤立的な音声認識システムを構築し, 実験を行った。
論文 参考訳(メタデータ) (2020-06-01T06:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。