論文の概要: RAMer: Reconstruction-based Adversarial Model for Multi-party Multi-modal Multi-label Emotion Recognition
- arxiv url: http://arxiv.org/abs/2502.10435v2
- Date: Sat, 30 Aug 2025 10:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.159042
- Title: RAMer: Reconstruction-based Adversarial Model for Multi-party Multi-modal Multi-label Emotion Recognition
- Title(参考訳): RAMer:マルチモーダルマルチラベル感情認識のための再構成に基づく逆数モデル
- Authors: Xudong Yang, Yizhang Zhu, Hanfeng Liu, Zeyi Wen, Nan Tang, Yuyu Luo,
- Abstract要約: 本稿では,モダリティの共通点と特異点を探索し,マルチモーダル表現を洗練させるRAMer(Reconstruction-based Adversarial Model for Emotion Recognition)を提案する。
RAMer は Dyadic および multi-party MMER シナリオで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 20.12929002385256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional Multi-modal multi-label emotion recognition (MMER) assumes complete access to visual, textual, and acoustic modalities. However, real-world multi-party settings often violate this assumption, as non-speakers frequently lack acoustic and textual inputs, leading to a significant degradation in model performance. Existing approaches also tend to unify heterogeneous modalities into a single representation, overlooking each modality's unique characteristics. To address these challenges, we propose RAMer (Reconstruction-based Adversarial Model for Emotion Recognition), which refines multi-modal representations by not only exploring modality commonality and specificity but crucially by leveraging reconstructed features, enhanced by contrastive learning, to overcome data incompleteness and enrich feature quality. RAMer also introduces a personality auxiliary task to complement missing modalities using modality-level attention, improving emotion reasoning. To further strengthen the model's ability to capture label and modality interdependency, we propose a stack shuffle strategy to enrich correlations between labels and modality-specific features. Experiments on three benchmarks, i.e., MEmoR, CMU-MOSEI, and $M^3ED$, demonstrate that RAMer achieves state-of-the-art performance in dyadic and multi-party MMER scenarios.
- Abstract(参考訳): 従来のマルチモーダルマルチラベル感情認識(MMER)は、視覚的、テキスト的、音響的モダリティへの完全なアクセスを前提としている。
しかし、実世界のマルチパーティ設定は、非話者がしばしば音響入力やテキスト入力を欠いているため、モデルの性能が著しく低下するので、この前提に反することが多い。
既存のアプローチはまた、不均一なモジュラリティを単一の表現に統一し、各モジュラリティの固有の特性を見渡す傾向がある。
これらの課題に対処するために,マルチモーダル表現を改良するRAMer(Reconstruction-based Adversarial Model for Emotion Recognition)を提案する。
RAMerはまた、モダリティレベルの注意を用いて欠落したモダリティを補完し、感情推論を改善するパーソナリティ補助タスクも導入している。
ラベルとモダリティの相互依存性を捕捉するモデルの能力をさらに強化するため,ラベルとモダリティ固有の特徴との相関性を高めるスタックシャッフル戦略を提案する。
MemoR、CMU-MOSEI、および$M^3ED$という3つのベンチマークの実験では、RAMerがダイアドとマルチパーティのMMERシナリオで最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Sync-TVA: A Graph-Attention Framework for Multimodal Emotion Recognition with Cross-Modal Fusion [7.977094562068075]
そこで我々は,モダリティ特異的な動的拡張と構造的クロスモーダル融合を特徴とする,エンドツーエンドのグラフアテンションフレームワークSync-TVAを提案する。
本設計では,モダリティごとに動的拡張モジュールを組み込んで,テキスト,音声,視覚的特徴間の意味関係をモデル化する異質なクロスモーダルグラフを構築している。
MELDとIEMOCAPの実験では、特にクラス不均衡条件下では、精度と重み付けされたF1スコアの両方において、最先端モデルに対する一貫した改善が示されている。
論文 参考訳(メタデータ) (2025-07-29T00:03:28Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network [6.304608172789466]
MAVENは、感情の次元モデリングによる動的感情認識のための新しいアーキテクチャである。
提案手法では,映像フレーム,音声セグメント,テキストからリッチな特徴表現を抽出するために,モダリティ固有エンコーダを用いる。
MAVENは感情を極座標で予測し、感情周囲の心理的モデルと一致させる。
論文 参考訳(メタデータ) (2025-03-16T19:32:32Z) - Leveraging Retrieval Augment Approach for Multimodal Emotion Recognition Under Missing Modalities [16.77191718894291]
我々は,Multimodal Emotion Recognition(RAMER)の欠如に対する検索機能強化の新たな枠組みを提案する。
我々のフレームワークは、欠落したモダリティMERタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-09-19T02:31:12Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - CARAT: Contrastive Feature Reconstruction and Aggregation for
Multi-Modal Multi-Label Emotion Recognition [18.75994345925282]
マルチモーダルマルチラベル感情認識(MMER)は、複数のモーダルから関連する感情を識別することを目的としている。
MMERの課題は、異種データから複数のラベルの識別機能を効果的に取得する方法である。
本稿では,MMERタスクのためのContrAstive Feature Restruction and AggregaTion(CARAT)を提案する。
論文 参考訳(メタデータ) (2023-12-15T20:58:05Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MIR-GAN: Refining Frame-Level Modality-Invariant Representations with
Adversarial Network for Audio-Visual Speech Recognition [23.042478625584653]
フレームレベルのモダリティ不変表現(MIR-GAN)を洗練するための逆ネットワークを提案する。
特に,フレームレベルのモダリティ不変表現(MIR-GAN)を洗練するための逆ネットワークを提案する。
論文 参考訳(メタデータ) (2023-06-18T14:02:20Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。