Fugu-MT 論文翻訳(概要): Joyful: Joint Modality Fusion and Graph Contrastive Learning for Multimodal Emotion Recognition

論文の概要: Joyful: Joint Modality Fusion and Graph Contrastive Learning for Multimodal Emotion Recognition

arxiv url: http://arxiv.org/abs/2311.11009v1
Date: Sat, 18 Nov 2023 08:21:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 12:53:55.486196
Title: Joyful: Joint Modality Fusion and Graph Contrastive Learning for Multimodal Emotion Recognition
Title（参考訳）: Joyful:マルチモーダル感情認識のための共同モダリティ融合とグラフコントラスト学習
Authors: Dongyuan Li, Yusong Wang, Kotaro Funakoshi, and Manabu Okumura
Abstract要約: マルチモーダル感情認識は、複数のモーダルの発話毎に感情を認識することを目的としている。現在のグラフベースの手法では、対話においてグローバルな文脈特徴と局所的な多様なユニモーダル特徴を同時に表現することができない。マルチモーダル感情認識のための共同モーダル融合法とグラフコントラスト学習法(Joyful)を提案する。
参考スコア（独自算出の注目度）: 18.571931295274975
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal emotion recognition aims to recognize emotions for each utterance of multiple modalities, which has received increasing attention for its application in human-machine interaction. Current graph-based methods fail to simultaneously depict global contextual features and local diverse uni-modal features in a dialogue. Furthermore, with the number of graph layers increasing, they easily fall into over-smoothing. In this paper, we propose a method for joint modality fusion and graph contrastive learning for multimodal emotion recognition (Joyful), where multimodality fusion, contrastive learning, and emotion recognition are jointly optimized. Specifically, we first design a new multimodal fusion mechanism that can provide deep interaction and fusion between the global contextual and uni-modal specific features. Then, we introduce a graph contrastive learning framework with inter-view and intra-view contrastive losses to learn more distinguishable representations for samples with different sentiments. Extensive experiments on three benchmark datasets indicate that Joyful achieved state-of-the-art (SOTA) performance compared to all baselines.
Abstract（参考訳）: マルチモーダル感情認識(multimodal emotion recognition)は、複数のモーダルの発話毎に感情を認識することを目的としている。現在のグラフベースの手法では、対話においてグローバルな文脈特徴と局所的な多様なユニモーダル特徴を同時に表現できない。さらに、グラフ層が増加するにつれて、オーバースモーニングに陥りやすい。本稿では,マルチモダリティ融合,コントラスト学習,および感情認識を共同で最適化したマルチモダリティ感情認識(joyful)のための統合モダリティ融合とグラフコントラスト学習の手法を提案する。具体的には、まず、グローバルなコンテキストとユニモーダル特有の特徴の深い相互作用と融合を提供する、新しいマルチモーダル融合機構を設計する。次に,視間および視内コントラスト損失を伴うグラフコントラスト学習フレームワークを導入し,感情の異なるサンプルに対して,より識別可能な表現を学ぶ。 3つのベンチマークデータセットに対する大規模な実験は、Joyfulがすべてのベースラインと比較して最先端(SOTA)のパフォーマンスを達成したことを示している。

関連論文リスト

Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文参考訳（メタデータ） (2024-12-30T14:09:15Z)
Effective Context Modeling Framework for Emotion Recognition in Conversations [2.7175580940471913]
会話における感情認識(英語: Emotion Recognition in Conversations, ERC)は、会話中の各発話における話者による感情のより深い理解を促進する。最近のグラフニューラルネットワーク(GNN)は、データ関係をキャプチャする上で、その強みを実証している。本稿では,会話中の文脈情報をキャプチャする新しいGNNベースのフレームワークであるConxGNNを提案する。
論文参考訳（メタデータ） (2024-12-21T02:22:06Z)
WavFusion: Towards wav2vec 2.0 Multimodal Speech Emotion Recognition [2.3367170233149324]
We propose WavFusion, a multimodal speech emotion recognition framework。 WavFusionは、効果的なマルチモーダル融合、モダリティ、差別的表現学習における重要な研究課題に対処する。本研究は, 精度の高いマルチモーダルSERにおいて, ニュアンスな相互モーダル相互作用を捉え, 識別表現を学習することの重要性を強調した。
論文参考訳（メタデータ） (2024-12-07T06:43:39Z)
Contrastive Learning-based Multi Modal Architecture for Emoticon Prediction by Employing Image-Text Pairs [13.922091192207718]
本研究の目的は,文,視覚,エモティコン間の関係を分析することである。我々は,新しいコントラスト学習に基づくマルチモーダルアーキテクチャを提案する。提案モデルの精度は91%,MCCスコアは90%,エモティコンは90%であった。
論文参考訳（メタデータ） (2024-08-05T15:45:59Z)
AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文参考訳（メタデータ） (2024-04-12T11:31:18Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文参考訳（メタデータ） (2023-12-31T08:13:47Z)
Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文参考訳（メタデータ） (2023-12-28T01:57:26Z)
Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-25T14:20:52Z)
Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。 MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文参考訳（メタデータ） (2023-07-19T02:11:19Z)
InterMulti:Multi-view Multimodal Interactions with Text-dominated Hierarchical High-order Fusion for Emotion Analysis [10.048903012988882]
異なる視点から複雑なマルチモーダルインタラクションを捉えるためのマルチモーダル感情分析フレームワークであるInterMultiを提案する。提案フレームワークは,異なるモードの信号を3種類のマルチモーダル相互作用表現に分解する。 THHFモジュールは上記の3種類の表現を包括的マルチモーダル相互作用表現に合理的に統合する。
論文参考訳（メタデータ） (2022-12-20T07:02:32Z)
EffMulti: Efficiently Modeling Complex Multimodal Interactions for Emotion Analysis [8.941102352671198]
我々は感情分析過程を洗練させるために3種類の潜在表現を設計する。これらの表現を包括的相互作用表現に合理的に組み込むために、モダリティ-セマンティック階層的融合が提案されている。実験の結果,EffMultiは最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2022-12-16T03:05:55Z)
Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文参考訳（メタデータ） (2022-10-05T13:14:57Z)
Multi-channel Attentive Graph Convolutional Network With Sentiment Fusion For Multimodal Sentiment Analysis [10.625579004828733]
本稿では,Multi- Channel Attentive Graph Convolutional Network (MAGCN)を提案する。クロスモーダルな対話型学習と感傷的特徴融合の2つの主要コンポーネントで構成されている。実験は、広く使われている3つのデータセットで実施される。
論文参考訳（メタデータ） (2022-01-25T12:38:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。