論文の概要: RoHyDR: Robust Hybrid Diffusion Recovery for Incomplete Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2505.17501v1
- Date: Fri, 23 May 2025 05:52:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.848191
- Title: RoHyDR: Robust Hybrid Diffusion Recovery for Incomplete Multimodal Emotion Recognition
- Title(参考訳): RoHyDR:不完全なマルチモーダル感情認識のためのロバストハイブリッド拡散回復
- Authors: Yuehan Jin, Xiaoqing Liu, Yiyuan Yang, Zhiwen Yu, Tong Zhang, Kaixiang Yang,
- Abstract要約: 本稿では,一様,多様,特徴,意味レベルにおいて,モダリティの欠如を回復させる新しいフレームワークを提案する。
従来の研究とは対照的に、RoHyDRのハイブリッド拡散と対向学習に基づく回復機構は、単一モーダル表現とマルチモーダル融合の両方において欠落情報の回復を可能にする。
提案手法は最先端のIMER法より優れており, 様々なモダリティシナリオ下での頑健な認識性能を実現している。
- 参考スコア(独自算出の注目度): 17.612203615672744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal emotion recognition analyzes emotions by combining data from multiple sources. However, real-world noise or sensor failures often cause missing or corrupted data, creating the Incomplete Multimodal Emotion Recognition (IMER) challenge. In this paper, we propose Robust Hybrid Diffusion Recovery (RoHyDR), a novel framework that performs missing-modality recovery at unimodal, multimodal, feature, and semantic levels. For unimodal representation recovery of missing modalities, RoHyDR exploits a diffusion-based generator to generate distribution-consistent and semantically aligned representations from Gaussian noise, using available modalities as conditioning. For multimodal fusion recovery, we introduce adversarial learning to produce a realistic fused multimodal representation and recover missing semantic content. We further propose a multi-stage optimization strategy that enhances training stability and efficiency. In contrast to previous work, the hybrid diffusion and adversarial learning-based recovery mechanism in RoHyDR allows recovery of missing information in both unimodal representation and multimodal fusion, at both feature and semantic levels, effectively mitigating performance degradation caused by suboptimal optimization. Comprehensive experiments conducted on two widely used multimodal emotion recognition benchmarks demonstrate that our proposed method outperforms state-of-the-art IMER methods, achieving robust recognition performance under various missing-modality scenarios. Our code will be made publicly available upon acceptance.
- Abstract(参考訳): マルチモーダル感情認識は、複数のソースのデータを組み合わせて感情を分析する。
しかし、現実のノイズやセンサーの故障は、しばしば欠落または破損したデータを引き起こし、不完全なマルチモーダル感情認識(IMER)課題を生み出す。
本稿では,ロバストハイブリッド拡散回復(RoHyDR)を提案する。
RoHyDRは拡散型ジェネレータを利用してガウス雑音から分布一貫性と意味的に整合した表現を生成し、利用可能なモダリティを条件付けとして利用する。
マルチモーダル・フュージョン・リカバリのために,現実的な融合型マルチモーダル表現を生成し,欠落したセマンティックコンテンツを復元するために,逆学習を導入する。
さらに,トレーニングの安定性と効率性を向上する多段階最適化戦略を提案する。
従来の研究とは対照的に,RoHyDRのハイブリッド拡散と逆学習に基づく回復機構により,一様表現と多モード融合の両方において,特徴レベルと意味レベルで欠落情報の回復が可能となり,最適下最適化による性能劣化を効果的に軽減できる。
2つの広く使われているマルチモーダル感情認識ベンチマークで実施した総合実験により、提案手法は最先端のIMER法より優れており、様々なモダリティシナリオ下で頑健な認識性能が得られることが示された。
私たちのコードは受理時に公開されます。
関連論文リスト
- FedRecon: Missing Modality Reconstruction in Distributed Heterogeneous Environments [7.646878242748392]
FedReconは,マルチモーダル学習におけるモダリティ再構築と非IID適応を同時に行うことを目的とした,最初の手法である。
提案手法は,まず軽量なマルチモーダル変分オートエンコーダ(MVAE)を用いて,欠落したモダリティを再構成する。
非IID変動を緩和する大惨な忘れ込みを防止するために,グローバルジェネレータの凍結を利用した戦略を導入する。
論文 参考訳(メタデータ) (2025-04-14T07:04:10Z) - A Novel Approach to for Multimodal Emotion Recognition : Multimodal semantic information fusion [3.1409950035735914]
本稿では,コントラスト学習と視覚的シーケンス圧縮を統合した新しいマルチモーダル感情認識手法であるDeepMSI-MERを提案する。
2つの公開データセット(IEMOCAPとMELD)の実験結果から、DeepMSI-MERは感情認識の精度と堅牢性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-02-12T17:07:43Z) - Leveraging Retrieval Augment Approach for Multimodal Emotion Recognition Under Missing Modalities [16.77191718894291]
我々は,Multimodal Emotion Recognition(RAMER)の欠如に対する検索機能強化の新たな枠組みを提案する。
我々のフレームワークは、欠落したモダリティMERタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-09-19T02:31:12Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。