Fugu-MT 論文翻訳(概要): Curriculum Learning Meets Directed Acyclic Graph for Multimodal Emotion Recognition

論文の概要: Curriculum Learning Meets Directed Acyclic Graph for Multimodal Emotion Recognition

arxiv url: http://arxiv.org/abs/2402.17269v2
Date: Fri, 8 Mar 2024 06:00:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 22:22:52.422460
Title: Curriculum Learning Meets Directed Acyclic Graph for Multimodal Emotion Recognition
Title（参考訳）: マルチモーダル感情認識のための非循環グラフを用いたカリキュラム学習
Authors: Cam-Van Thi Nguyen, Cao-Bach Nguyen, Quang-Thuy Ha, Duc-Trong Le
Abstract要約: MultiDAG+CLは会話におけるマルチモーダル感情認識の新しいアプローチこのモデルはCurriculum Learning (CL)によって強化され、感情の変化やデータの不均衡に関連する課題に対処する。 IEMOCAPとMELDデータセットの実験結果は、MultiDAG+CLモデルがベースラインモデルより優れていることを示している。
参考スコア（独自算出の注目度）: 2.4660652494309936
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Emotion recognition in conversation (ERC) is a crucial task in natural language processing and affective computing. This paper proposes MultiDAG+CL, a novel approach for Multimodal Emotion Recognition in Conversation (ERC) that employs Directed Acyclic Graph (DAG) to integrate textual, acoustic, and visual features within a unified framework. The model is enhanced by Curriculum Learning (CL) to address challenges related to emotional shifts and data imbalance. Curriculum learning facilitates the learning process by gradually presenting training samples in a meaningful order, thereby improving the model's performance in handling emotional variations and data imbalance. Experimental results on the IEMOCAP and MELD datasets demonstrate that the MultiDAG+CL models outperform baseline models. We release the code for MultiDAG+CL and experiments: https://github.com/vanntc711/MultiDAG-CL
Abstract（参考訳）: 会話における感情認識(erc)は、自然言語処理と感情コンピューティングにおいて重要なタスクである。本稿では,多言語対話におけるマルチモーダル感情認識(ERC)の新たなアプローチであるMultiDAG+CLを提案する。このモデルはCurriculum Learning (CL)によって強化され、感情の変化やデータの不均衡に関連する課題に対処する。カリキュラム学習は、トレーニングサンプルを段階的に意味のある順序で提示することで学習プロセスを容易にし、感情の変化やデータの不均衡を扱う際のモデルの性能を向上させる。 IEMOCAPとMELDデータセットの実験結果は、MultiDAG+CLモデルがベースラインモデルより優れていることを示している。我々はmultidag+clのコードと実験をリリースする。 https://github.com/vanntc711/multidag-cl

関連論文リスト

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。 4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文参考訳（メタデータ） (2025-08-03T02:50:08Z)
True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文参考訳（メタデータ） (2025-07-21T17:08:18Z)
Long-Short Distance Graph Neural Networks and Improved Curriculum Learning for Emotion Recognition in Conversation [3.031375888004876]
本稿では,会話における感情認識(ERC)に対する新しいマルチモーダルアプローチを提案する。遠距離グラフニューラルネットワークと短距離グラフニューラルネットワークを構築し、遠距離および近距離発話のマルチモーダル特徴を得る。 IEMOCAPとMELDデータセットの実験結果は、我々のモデルが既存のベンチマークより優れていることを示している。
論文参考訳（メタデータ） (2025-07-21T03:12:54Z)
Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文参考訳（メタデータ） (2024-12-07T22:46:52Z)
EEG-based Multimodal Representation Learning for Emotion Recognition [26.257531037300325]
本稿では,ビデオ,画像,音声などの従来のモダリティだけでなく,脳波データも組み込んだ新しいマルチモーダルフレームワークを提案する。本フレームワークは,様々な入力サイズを柔軟に扱えるように設計されている。
論文参考訳（メタデータ） (2024-10-29T01:35:17Z)
Textualized and Feature-based Models for Compound Multimodal Emotion Recognition in the Wild [45.29814349246784]
マルチモーダルな大言語モデル(LLM)は、異なる非テクストのモダリティからテキストに変換される可能性のある明示的な非言語的手がかりに依存している。本稿では,ビデオにおける複合マルチモーダルERのテキストと特徴に基づくアプローチの可能性について比較する。
論文参考訳（メタデータ） (2024-07-17T18:01:25Z)
SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。従来の方法と比較して最先端の結果が得られます。
論文参考訳（メタデータ） (2024-01-22T11:04:55Z)
A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning [13.197551708300345]
グラフコントラスト学習(TS-GCL)に基づく2段階感情認識モデルを提案する。 TS-GCL は IEMOCAP と MELD のデータセットに対して,従来の手法に比べて優れた性能を示した。
論文参考訳（メタデータ） (2024-01-03T01:58:31Z)
Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。 MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文参考訳（メタデータ） (2023-12-11T12:35:17Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文参考訳（メタデータ） (2021-10-27T09:57:00Z)
Improved Speech Emotion Recognition using Transfer Learning and Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。 SERの主な課題の1つは、データの不足である。本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文参考訳（メタデータ） (2021-08-05T10:39:39Z)
Self-Supervised learning with cross-modal transformers for emotion recognition [20.973999078271483]
自己教師型学習は、音声や自然言語のようなドメインでラベル付きデータセットが限定されたタスクの改善を示している。本研究では,マルチモーダルアプリケーションに自己指導型トレーニングを拡張する。
論文参考訳（メタデータ） (2020-11-20T21:38:34Z)
Object Relational Graph with Teacher-Recommended Learning for Video Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文参考訳（メタデータ） (2020-02-26T15:34:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。