論文の概要: Curriculum Learning Meets Directed Acyclic Graph for Multimodal Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2402.17269v1
- Date: Tue, 27 Feb 2024 07:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 17:22:11.634224
- Title: Curriculum Learning Meets Directed Acyclic Graph for Multimodal Emotion
Recognition
- Title(参考訳): マルチモーダル感情認識のための非循環グラフを用いたカリキュラム学習
- Authors: Cam-Van Thi Nguyen, Cao-Bach Nguyen, Quang-Thuy Ha, Duc-Trong Le
- Abstract要約: 本稿では,会話におけるマルチモーダル感情認識のための新しいアプローチであるMultiDAG+CLを提案する。
このモデルはCurriculum Learning (CL)によって強化され、感情の変化やデータの不均衡に関連する課題に対処する。
IEMOCAPとMELDデータセットの実験結果は、MultiDAG+CLモデルがベースラインモデルより優れていることを示している。
- 参考スコア(独自算出の注目度): 2.4660652494309936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion recognition in conversation (ERC) is a crucial task in natural
language processing and affective computing. This paper proposes MultiDAG+CL, a
novel approach for Multimodal Emotion Recognition in Conversation (ERC) that
employs Directed Acyclic Graph (DAG) to integrate textual, acoustic, and visual
features within a unified framework. The model is enhanced by Curriculum
Learning (CL) to address challenges related to emotional shifts and data
imbalance. Curriculum learning facilitates the learning process by gradually
presenting training samples in a meaningful order, thereby improving the
model's performance in handling emotional variations and data imbalance.
Experimental results on the IEMOCAP and MELD datasets demonstrate that the
MultiDAG+CL models outperform baseline models.
- Abstract(参考訳): 会話における感情認識(erc)は、自然言語処理と感情コンピューティングにおいて重要なタスクである。
本稿では,多言語対話におけるマルチモーダル感情認識(ERC)の新たなアプローチであるMultiDAG+CLを提案する。
このモデルはCurriculum Learning (CL)によって強化され、感情の変化やデータの不均衡に関連する課題に対処する。
カリキュラム学習は、トレーニングサンプルを段階的に意味のある順序で提示することで学習プロセスを容易にし、感情の変化やデータの不均衡を扱う際のモデルの性能を向上させる。
IEMOCAPとMELDデータセットの実験結果は、MultiDAG+CLモデルがベースラインモデルより優れていることを示している。
関連論文リスト
- EEG-based Multimodal Representation Learning for Emotion Recognition [26.257531037300325]
本稿では,ビデオ,画像,音声などの従来のモダリティだけでなく,脳波データも組み込んだ新しいマルチモーダルフレームワークを提案する。
本フレームワークは,様々な入力サイズを柔軟に扱えるように設計されている。
論文 参考訳(メタデータ) (2024-10-29T01:35:17Z) - Textualized and Feature-based Models for Compound Multimodal Emotion Recognition in the Wild [45.29814349246784]
マルチモーダルな大言語モデル(LLM)は、異なる非テクストのモダリティからテキストに変換される可能性のある明示的な非言語的手がかりに依存している。
本稿では,ビデオにおける複合マルチモーダルERのテキストと特徴に基づくアプローチの可能性について比較する。
論文 参考訳(メタデータ) (2024-07-17T18:01:25Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - A Two-Stage Multimodal Emotion Recognition Model Based on Graph
Contrastive Learning [13.197551708300345]
グラフコントラスト学習(TS-GCL)に基づく2段階感情認識モデルを提案する。
TS-GCL は IEMOCAP と MELD のデータセットに対して,従来の手法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2024-01-03T01:58:31Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Self-Supervised learning with cross-modal transformers for emotion
recognition [20.973999078271483]
自己教師型学習は、音声や自然言語のようなドメインでラベル付きデータセットが限定されたタスクの改善を示している。
本研究では,マルチモーダルアプリケーションに自己指導型トレーニングを拡張する。
論文 参考訳(メタデータ) (2020-11-20T21:38:34Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。