論文の概要: Multimodal Emotion Recognition with High-level Speech and Text Features
- arxiv url: http://arxiv.org/abs/2111.10202v1
- Date: Wed, 29 Sep 2021 07:08:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 04:51:40.487067
- Title: Multimodal Emotion Recognition with High-level Speech and Text Features
- Title(参考訳): 高レベル音声とテキスト特徴を用いたマルチモーダル感情認識
- Authors: Mariana Rodrigues Makiuchi, Kuniaki Uto and Koichi Shinoda
- Abstract要約: 本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
- 参考スコア(独自算出の注目度): 8.141157362639182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic emotion recognition is one of the central concerns of the
Human-Computer Interaction field as it can bridge the gap between humans and
machines. Current works train deep learning models on low-level data
representations to solve the emotion recognition task. Since emotion datasets
often have a limited amount of data, these approaches may suffer from
overfitting, and they may learn based on superficial cues. To address these
issues, we propose a novel cross-representation speech model, inspired by
disentanglement representation learning, to perform emotion recognition on
wav2vec 2.0 speech features. We also train a CNN-based model to recognize
emotions from text features extracted with Transformer-based models. We further
combine the speech-based and text-based results with a score fusion approach.
Our method is evaluated on the IEMOCAP dataset in a 4-class classification
problem, and it surpasses current works on speech-only, text-only, and
multimodal emotion recognition.
- Abstract(参考訳): 自動感情認識は、人間と機械のギャップを埋めることのできる人間とコンピュータの相互作用の分野の中心的な関心事の1つである。
現在の研究は、感情認識タスクを解決するために、低レベルのデータ表現でディープラーニングモデルをトレーニングする。
感情データセットはしばしば限られた量のデータを持っているため、これらのアプローチは過度な適合に悩まされ、表面的な手がかりに基づいて学習する。
そこで本研究では,wav2vec 2.0音声特徴の感情認識を行うために,異方性表現学習に触発された新しいクロス表現音声モデルを提案する。
また、トランスフォーマーモデルを用いて抽出したテキストの特徴から感情を認識するcnnベースのモデルを訓練する。
さらに、音声とテキストによる結果をスコア融合アプローチと組み合わせた。
本手法は,IEMOCAPデータセットを4クラス分類問題で評価し,音声のみ,テキストのみ,マルチモーダル感情認識に関する現在の研究を上回っている。
関連論文リスト
- Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT [0.0]
本研究では, 自己教師型トランスフォーマーモデルであるWav2Vec2とHuBERTを用いて, 話者の感情を音声から判断する。
提案手法は、RAVDESS、SHEMO、SAVEE、AESDD、Emo-DBを含む計算可能なデータセットに基づいて評価される。
論文 参考訳(メタデータ) (2024-11-05T10:06:40Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。
最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文 参考訳(メタデータ) (2023-12-10T05:17:39Z) - HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion
Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。
モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。
文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文 参考訳(メタデータ) (2023-04-14T03:25:00Z) - VISTANet: VIsual Spoken Textual Additive Net for Interpretable Multimodal Emotion Recognition [21.247650660908484]
本稿では、VISTANet(Visual Textual Additive Net)というマルチモーダル感情認識システムを提案する。
VISTANetは、早期と後期の融合のハイブリッドを用いて、画像、音声、テキストのモダリティから情報を融合する。
KAAP技術は、特定の感情のクラスを予測するために、各モダリティとそれに対応する特徴の寄与を計算する。
論文 参考訳(メタデータ) (2022-08-24T11:35:51Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。