論文の概要: Speech Emotion Recognition Based on Multi-feature and Multi-lingual
Fusion
- arxiv url: http://arxiv.org/abs/2001.05908v1
- Date: Thu, 16 Jan 2020 15:53:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 00:37:38.357270
- Title: Speech Emotion Recognition Based on Multi-feature and Multi-lingual
Fusion
- Title(参考訳): 多機能・多言語融合に基づく音声感情認識
- Authors: Chunyi Wang
- Abstract要約: 多機能・多言語融合に基づく音声感情認識アルゴリズムを提案する。
本研究により,多機能・多言語融合アルゴリズムは,データセットが小さい場合の音声感情認識精度を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A speech emotion recognition algorithm based on multi-feature and
Multi-lingual fusion is proposed in order to resolve low recognition accuracy
caused by lack of large speech dataset and low robustness of acoustic features
in the recognition of speech emotion. First, handcrafted and deep automatic
features are extracted from existing data in Chinese and English speech
emotions. Then, the various features are fused respectively. Finally, the fused
features of different languages are fused again and trained in a classification
model. Distinguishing the fused features with the unfused ones, the results
manifest that the fused features significantly enhance the accuracy of speech
emotion recognition algorithm. The proposed solution is evaluated on the two
Chinese corpus and two English corpus, and is shown to provide more accurate
predictions compared to original solution. As a result of this study, the
multi-feature and Multi-lingual fusion algorithm can significantly improve the
speech emotion recognition accuracy when the dataset is small.
- Abstract(参考訳): 多機能・多言語融合に基づく音声感情認識アルゴリズムを提案し,音声感情認識における大きなデータセットの欠如と音響的特徴のロバスト性による認識精度の低下を解消する。
まず、中国語と英語の音声感情の既存のデータから手工芸品と深い自動特徴を抽出する。
そして、それぞれ異なる特徴を融合させる。
最後に、異なる言語の融合した特徴を再び融合させ、分類モデルで訓練する。
その結果, 融合特徴を未融合特徴と区別すると, 融合特徴は音声認識アルゴリズムの精度を大幅に向上させることがわかった。
提案手法は, 2つの中国語コーパスと2つの英語コーパスで評価し, 元の解に比べて精度の高い予測結果が得られた。
本研究の結果,多機能・多言語融合アルゴリズムは,データセットが小さい場合の音声感情認識精度を大幅に向上させることができる。
関連論文リスト
- Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech
Recognition [12.23416994447554]
我々はMixture-of-Language-Expert(MoLE)という多言語音声認識ネットワークを提案する。
MoLEは、任意の言語で入力された音声から言語表現を分析し、軽量な言語トークン化器で言語固有の専門家を活性化する。
信頼性に基づいて、アクティベートされた専門家と言語に依存しない専門家を集約し、言語条件の埋め込みを表現する。
論文 参考訳(メタデータ) (2023-02-27T13:26:17Z) - Multilingual Speech Emotion Recognition With Multi-Gating Mechanism and
Neural Architecture Search [15.51730246937201]
SERは、音声をHappy、Angry、Fear、Disgust、Neutralなどの感情カテゴリーに分類する。
本稿では,複数の事前学習された音声モデルから感情情報を抽出する言語特化モデルを提案する。
我々のモデルは、ドイツ語では3%、フランス語では14.3%の精度で最先端の精度を上げる。
論文 参考訳(メタデータ) (2022-10-31T19:55:33Z) - Interpretable Multimodal Emotion Recognition using Hybrid Fusion of
Speech and Image Data [15.676632465869346]
特定の感情のクラスの予測に繋がる重要な音声・画像の特徴を識別する新しい解釈可能性技術を開発した。
提案システムは感情認識の精度を83.29%向上させた。
論文 参考訳(メタデータ) (2022-08-25T04:43:34Z) - Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities
on Multilingual Speech Recognition [31.575930914290762]
言語間音響-音声の類似性を調べるために, 新たなデータ駆動手法を提案する。
ディープニューラルネットワークは、異なる音響モデルからの分布を直接的に同等の形式に変換するためのマッピングネットワークとして訓練されている。
モノリンガルに比べて8%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2022-07-07T15:55:41Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Efficient Weight factorization for Multilingual Speech Recognition [67.00151881207792]
エンドツーエンドの多言語音声認識は、多くの言語を含む合成音声コーパスで単一のモデルトレーニングを使用する。
トレーニングデータの各言語には異なる特徴があるため、共有ネットワークは、すべての言語を同時に最適化するのに苦労する可能性がある。
ニューラルネットワークのコア動作をターゲットとした新しい多言語アーキテクチャを提案する:線形変換関数。
論文 参考訳(メタデータ) (2021-05-07T00:12:02Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。