論文の概要: A Multi-Task, Multi-Modal Approach for Predicting Categorical and
Dimensional Emotions
- arxiv url: http://arxiv.org/abs/2401.00536v1
- Date: Sun, 31 Dec 2023 16:48:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 16:57:21.387274
- Title: A Multi-Task, Multi-Modal Approach for Predicting Categorical and
Dimensional Emotions
- Title(参考訳): カテゴリー的・次元的感情予測のためのマルチタスクマルチモーダルアプローチ
- Authors: Alex-R\u{a}zvan Ispas, Th\'eo Deschamps-Berger, Laurence Devillers
- Abstract要約: 分類的・次元的な感情を予測するマルチタスク・マルチモーダルシステムを提案する。
その結果,2種類の感情の相互規則化の重要性が強調された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition (SER) has received a great deal of attention in
recent years in the context of spontaneous conversations. While there have been
notable results on datasets like the well known corpus of naturalistic dyadic
conversations, IEMOCAP, for both the case of categorical and dimensional
emotions, there are few papers which try to predict both paradigms at the same
time. Therefore, in this work, we aim to highlight the performance contribution
of multi-task learning by proposing a multi-task, multi-modal system that
predicts categorical and dimensional emotions. The results emphasise the
importance of cross-regularisation between the two types of emotions. Our
approach consists of a multi-task, multi-modal architecture that uses parallel
feature refinement through self-attention for the feature of each modality. In
order to fuse the features, our model introduces a set of learnable bridge
tokens that merge the acoustic and linguistic features with the help of
cross-attention. Our experiments for categorical emotions on 10-fold validation
yield results comparable to the current state-of-the-art. In our configuration,
our multi-task approach provides better results compared to learning each
paradigm separately. On top of that, our best performing model achieves a high
result for valence compared to the previous multi-task experiments.
- Abstract(参考訳): 音声感情認識(ser)は,近年,自発的な会話の文脈において注目を集めている。
自然主義的二進的会話のコーパスであるIEMOCAPのようなデータセットでは、カテゴリー的感情と次元的感情の両方に対して顕著な結果が得られたが、両方のパラダイムを同時に予測しようとする論文は少ない。
そこで本研究では,カテゴリー的および次元的な感情を予測するマルチタスクマルチモーダルシステムを提案することにより,マルチタスク学習のパフォーマンス貢献を強調する。
その結果,2種類の感情の相互規則化の重要性が強調された。
我々のアプローチはマルチタスクマルチモーダルアーキテクチャで構成されており、各モダリティの特徴に対するセルフアテンションを通じて、並列特徴の洗練を利用する。
特徴を融合するために,我々は,音響的特徴と言語的特徴を相互接続の助けを借りて統合する学習可能なブリッジトークンのセットを導入した。
我々の10倍の検証結果に対するカテゴリー感情実験は、現在の最先端技術に匹敵する結果をもたらす。
私たちの構成では、マルチタスクアプローチは、各パラダイムを個別に学習するよりも優れた結果を提供します。
さらに, 従来のマルチタスク実験と比較して, 最良性能モデルでは有価値が高い結果が得られた。
関連論文リスト
- PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - LastResort at SemEval-2024 Task 3: Exploring Multimodal Emotion Cause Pair Extraction as Sequence Labelling Task [3.489826905722736]
SemEval 2024は会話におけるマルチモーダル感情原因分析のタスクを導入している。
本稿では,この課題を発話ラベリングとシーケンスラベリングの問題として扱うモデルを提案する。
このタスクの公式リーダーボードでは、私たちのアーキテクチャは8位にランクされ、リーダーボードのF1スコアは0.1759でした。
論文 参考訳(メタデータ) (2024-04-02T16:32:49Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Joyful: Joint Modality Fusion and Graph Contrastive Learning for
Multimodal Emotion Recognition [18.571931295274975]
マルチモーダル感情認識は、複数のモーダルの発話毎に感情を認識することを目的としている。
現在のグラフベースの手法では、対話においてグローバルな文脈特徴と局所的な多様なユニモーダル特徴を同時に表現することができない。
マルチモーダル感情認識のための共同モーダル融合法とグラフコントラスト学習法(Joyful)を提案する。
論文 参考訳(メタデータ) (2023-11-18T08:21:42Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Multitask Learning for Emotion and Personality Detection [17.029426018676997]
本研究では,人格特性と感情行動の相関関係を解明し,新しいマルチタスク学習フレームワークSoGMTLを提案する。
当社の計算効率の高いCNNベースのマルチタスクモデルは、複数の有名なパーソナリティおよび感情データセットにわたる最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-01-07T03:09:55Z) - Pedestrian Behavior Prediction via Multitask Learning and Categorical
Interaction Modeling [13.936894582450734]
マルチモーダルデータに頼って歩行者の軌跡や行動を同時に予測するマルチタスク学習フレームワークを提案する。
本モデルでは, トラジェクティブと動作予測を最大22%, 6%向上させる。
論文 参考訳(メタデータ) (2020-12-06T15:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。