論文の概要: Uncertainty-Aware Multimodal Emotion Recognition through Dirichlet Parameterization
- arxiv url: http://arxiv.org/abs/2602.09121v1
- Date: Mon, 09 Feb 2026 19:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.21202
- Title: Uncertainty-Aware Multimodal Emotion Recognition through Dirichlet Parameterization
- Title(参考訳): ディリクレパラメータ化による不確実性を考慮したマルチモーダル感情認識
- Authors: Rémi Grzeczkowicz, Eric Soriano, Ali Janati, Miyu Zhang, Gerard Comas-Quiles, Victor Carballo Araruna, Aneesh Jonelagadda,
- Abstract要約: 本稿では,エッジデバイスに展開するための軽量かつプライバシ保護型マルチモーダル感情認識(MER)フレームワークを提案する。
私たちの実装では、音声、テキスト、顔画像の3つのモードを使用します。
Dempster-Shafer理論とDirichletエビデンスに基づくモデルおよびタスク非依存核融合機構を導入する。
- 参考スコア(独自算出の注目度): 0.06596280437011041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a lightweight and privacy-preserving Multimodal Emotion Recognition (MER) framework designed for deployment on edge devices. To demonstrate framework's versatility, our implementation uses three modalities - speech, text and facial imagery. However, the system is fully modular, and can be extended to support other modalities or tasks. Each modality is processed through a dedicated backbone optimized for inference efficiency: Emotion2Vec for speech, a ResNet-based model for facial expressions, and DistilRoBERTa for text. To reconcile uncertainty across modalities, we introduce a model- and task-agnostic fusion mechanism grounded in Dempster-Shafer theory and Dirichlet evidence. Operating directly on model logits, this approach captures predictive uncertainty without requiring additional training or joint distribution estimation, making it broadly applicable beyond emotion recognition. Validation on five benchmark datasets (eNTERFACE05, MEAD, MELD, RAVDESS and CREMA-D) show that our method achieves competitive accuracy while remaining computationally efficient and robust to ambiguous or missing inputs. Overall, the proposed framework emphasizes modularity, scalability, and real-world feasibility, paving the way toward uncertainty-aware multimodal systems for healthcare, human-computer interaction, and other emotion-informed applications.
- Abstract(参考訳): 本研究では,エッジデバイスに展開するための軽量かつプライバシ保護型マルチモーダル感情認識(MER)フレームワークを提案する。
フレームワークの汎用性を実証するために、我々の実装では、音声、テキスト、顔画像の3つのモードを使用する。
しかし、システムは完全にモジュール化されており、他のモダリティやタスクをサポートするように拡張することができる。
それぞれのモダリティは、推論効率に最適化された専用のバックボーンによって処理される: 音声用のEmotion2Vec、表情用のResNetベースのモデル、テキスト用のDistilRoBERTa。
モダリティ間の不確実性を整合させるために、Dempster-Shafer理論とDirichletエビデンスに基づくモデルおよびタスク非依存の融合機構を導入する。
モデルロジットを直接操作することで、追加のトレーニングや共同分布推定を必要とせずに予測の不確実性を捕捉し、感情認識を越えて広く適用することができる。
5つのベンチマークデータセット (eNTERFACE05, MEAD, MELD, RAVDESS, CREMA-D) の検証により, 提案手法は計算効率を保ち, 曖昧な入力や欠落に対して頑健であることを示す。
全体として、提案するフレームワークは、モジュラリティ、スケーラビリティ、現実的な実現性を強調し、医療、人間とコンピュータのインタラクション、その他の感情情報に基づくアプリケーションのための不確実性を認識したマルチモーダルシステムへの道を開く。
関連論文リスト
- TouchFormer: A Robust Transformer-based Framework for Multimodal Material Perception [8.939880394166348]
我々は,堅牢なマルチモーダル融合フレームワークであるTouchFormerを提案する。
モーダリティ適応ゲーティング機構とモーダリティ内およびモーダリティ間注意機構を用いて、モーダリティ間特徴を適応的に統合する。
SSMCおよびサブカテゴリタスクにおいて,TouchFormerは2.48%,6.83%の分類精度の向上を実現している。
論文 参考訳(メタデータ) (2025-11-24T00:43:59Z) - A CLIP-based Uncertainty Modal Modeling (UMM) Framework for Pedestrian Re-Identification in Autonomous Driving [6.223368492604449]
Uncertainty Modal Modeling (UMM) フレームワークは、マルチモーダルトークンマッパー、合成モダリティ強化戦略、およびクロスモーダルキュー対話型学習器を統合している。
UMMは、不確実なモード条件下で強い堅牢性、一般化、および計算効率を達成する。
論文 参考訳(メタデータ) (2025-08-15T04:50:27Z) - Qieemo: Speech Is All You Need in the Emotion Recognition in Conversations [1.0690007351232649]
マルチモーダルアプローチは多様なモダリティの融合による恩恵を受け、認識精度が向上する。
提案するQieemoフレームワークは,自然なフレームアライメントと感情的特徴を含む事前学習された自動音声認識(ASR)モデルを効果的に活用する。
IEMOCAPデータセットの実験結果は、Qieemoがそれぞれ3.0%、1.2%、および1.9%の絶対的な改善でベンチマークアンモダル、マルチモーダル、セルフ教師付きモデルを上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-05T07:02:30Z) - RAMer: Reconstruction-based Adversarial Model for Multi-party Multi-modal Multi-label Emotion Recognition [20.12929002385256]
本稿では,モダリティの共通点と特異点を探索し,マルチモーダル表現を洗練させるRAMer(Reconstruction-based Adversarial Model for Emotion Recognition)を提案する。
RAMer は Dyadic および multi-party MMER シナリオで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-02-09T07:46:35Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Multi-modal Fusion for Single-Stage Continuous Gesture Recognition [45.19890687786009]
テンポラル・マルチモーダル・フュージョン(TMMF)と呼ばれる単一段階連続ジェスチャー認識フレームワークを導入する。
TMMFは、単一のモデルでビデオ内の複数のジェスチャーを検出し、分類することができる。
このアプローチは、前処理のセグメンテーションステップを必要とせずに、ジェスチャーと非ジェスチャーの自然な遷移を学習する。
論文 参考訳(メタデータ) (2020-11-10T07:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。