論文の概要: Bridging Modalities: Knowledge Distillation and Masked Training for
Translating Multi-Modal Emotion Recognition to Uni-Modal, Speech-Only Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2401.03000v1
- Date: Thu, 4 Jan 2024 22:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 20:58:46.608350
- Title: Bridging Modalities: Knowledge Distillation and Masked Training for
Translating Multi-Modal Emotion Recognition to Uni-Modal, Speech-Only Emotion
Recognition
- Title(参考訳): ブリッジモーダル(bridging modality):知識蒸留とマスキング学習によるマルチモーダル感情認識から単モーダル音声のみの感情認識へ
- Authors: Muhammad Muaz and Nathan Paull and Jahnavi Malagavalli
- Abstract要約: 本稿では、マルチモーダル感情認識モデルをより実践的なユニモーダルモデルに変換するという課題に対処する革新的なアプローチを提案する。
音声信号から感情を認識することは、人間とコンピュータの相互作用、感情コンピューティング、メンタルヘルスアセスメントにおける重要な課題である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an innovative approach to address the challenges of
translating multi-modal emotion recognition models to a more practical and
resource-efficient uni-modal counterpart, specifically focusing on speech-only
emotion recognition. Recognizing emotions from speech signals is a critical
task with applications in human-computer interaction, affective computing, and
mental health assessment. However, existing state-of-the-art models often rely
on multi-modal inputs, incorporating information from multiple sources such as
facial expressions and gestures, which may not be readily available or feasible
in real-world scenarios. To tackle this issue, we propose a novel framework
that leverages knowledge distillation and masked training techniques.
- Abstract(参考訳): 本稿では,マルチモーダル感情認識モデルの課題を,より実用的かつ資源効率の高いユニモーダルモデル,特に音声のみの感情認識に焦点をあてた手法を提案する。
音声信号から感情を認識することは、人間とコンピュータの相互作用、感情コンピューティング、メンタルヘルスアセスメントにおける重要な課題である。
しかし、既存の最先端のモデルは、しばしばマルチモーダル入力に依存しており、表情やジェスチャーといった複数のソースからの情報を組み込んでいる。
この問題に取り組むため,我々は知識蒸留とマスキングトレーニング技術を活用した新しい枠組みを提案する。
関連論文リスト
- Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Multi-Cue Adaptive Emotion Recognition Network [4.570705738465714]
適応型マルチキューに基づく感情認識のための新しい深層学習手法を提案する。
提案手法とCAER-Sデータセットの最先端手法を比較した。
論文 参考訳(メタデータ) (2021-11-03T15:08:55Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Emotion-aware Chat Machine: Automatic Emotional Response Generation for
Human-like Emotional Interaction [55.47134146639492]
この記事では、投稿中のセマンティクスと感情を同時にエンコードできる、未定義のエンドツーエンドニューラルネットワークを提案する。
実世界のデータを用いた実験により,提案手法は,コンテンツコヒーレンスと感情の適切性の両方の観点から,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-06T06:26:15Z) - Target Guided Emotion Aware Chat Machine [58.8346820846765]
意味レベルと感情レベルにおける投稿に対する応答の整合性は、人間のような対話を提供する対話システムにとって不可欠である。
この記事では、投稿中のセマンティクスと感情を同時にエンコードできる、未定義のエンドツーエンドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-11-15T01:55:37Z) - Facial Emotion Recognition with Noisy Multi-task Annotations [88.42023952684052]
ノイズの多いマルチタスクアノテーションを用いた顔の感情認識の新しい問題を提案する。
この新たな問題に対して,共同分布マッチングの観点からの定式化を提案する。
我々は,感情予測と共同分布学習を可能にする新しい手法を利用する。
論文 参考訳(メタデータ) (2020-10-19T20:39:37Z) - Temporal aggregation of audio-visual modalities for emotion recognition [0.5352699766206808]
本研究では,時間的オフセットの異なる時間的オフセットと時間的ウィンドウからの音声・視覚的モダリティを組み合わせた感情認識のためのマルチモーダル融合手法を提案する。
提案手法は,文献と人間の精度評価から,他の手法よりも優れている。
論文 参考訳(メタデータ) (2020-07-08T18:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。