論文の概要: Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities
- arxiv url: http://arxiv.org/abs/2210.15359v1
- Date: Thu, 27 Oct 2022 12:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:53:04.042415
- Title: Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities
- Title(参考訳): モダリティを欠いたロバストなマルチモーダル感情認識のためのモダリティ不変特徴の活用
- Authors: Haolin Zuo, Rui Liu, Jinming Zhao, Guanglai Gao, Haizhou Li
- Abstract要約: 我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
- 参考スコア(独自算出の注目度): 76.08541852988536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal emotion recognition leverages complementary information across
modalities to gain performance. However, we cannot guarantee that the data of
all modalities are always present in practice. In the studies to predict the
missing data across modalities, the inherent difference between heterogeneous
modalities, namely the modality gap, presents a challenge. To address this, we
propose to use invariant features for a missing modality imagination network
(IF-MMIN) which includes two novel mechanisms: 1) an invariant feature learning
strategy that is based on the central moment discrepancy (CMD) distance under
the full-modality scenario; 2) an invariant feature based imagination module
(IF-IM) to alleviate the modality gap during the missing modalities prediction,
thus improving the robustness of multimodal joint representation. Comprehensive
experiments on the benchmark dataset IEMOCAP demonstrate that the proposed
model outperforms all baselines and invariantly improves the overall emotion
recognition performance under uncertain missing-modality conditions. We release
the code at: https://github.com/ZhuoYulang/IF-MMIN.
- Abstract(参考訳): マルチモーダル感情認識は、パフォーマンスを得るためにモダリティ間の補完的情報を活用する。
しかし、すべてのモダリティのデータが実際に常に存在することは保証できない。
モダリティにまたがるデータの欠落を予測する研究において、不均質なモダリティ、すなわちモダリティギャップの間の本質的な差が課題となっている。
これを解決するために,2つの新しいメカニズムを含むモダリティ・イマジネーション・ネットワーク (IF-MMIN) に不変な特徴を用いることを提案する。
1) 完全モダリティシナリオにおける中心モーメント不一致(cmd)距離に基づく不変特徴学習戦略
2) 欠落モダリティ予測中のモダリティギャップを緩和する不変特徴に基づくイマジネーション加群(if-im)により,マルチモーダル結合表現のロバスト性が向上する。
ベンチマークデータセットIEMOCAPの総合的な実験により、提案モデルはすべてのベースラインを上回り、不確実なモダリティ条件下で全体の感情認識性能を不変に向上することを示した。
コードについては、https://github.com/ZhuoYulang/IF-MMIN.comで公開しています。
関連論文リスト
- Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Progressively Modality Freezing for Multi-Modal Entity Alignment [27.77877721548588]
本稿では,アライメント関連特徴に焦点をあてた,PMFと呼ばれる進行モード凍結の新たな戦略を提案する。
特に,本手法では,モーダル整合性を高めるために,クロスモーダルなアソシエーション損失を先駆的に導入する。
9つのデータセットの実証的な評価により、PMFの優位性が確認された。
論文 参考訳(メタデータ) (2024-07-23T04:22:30Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Fourier Prompt Tuning for Modality-Incomplete Scene Segmentation [37.06795681738417]
Modality-Incomplete Scene (MISS)は、システムレベルのモダリティ不在とセンサーレベルのモダリティエラーの両方を含むタスクである。
我々は,MMS(Missing-Aware Modal Switch)戦略を導入し,トレーニング中に欠落したモダリティを積極的に管理する。
従来のパラメータ効率向上手法よりも5.84%mIoUが改良され,モダリティの欠如が認められた。
論文 参考訳(メタデータ) (2024-01-30T11:46:27Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。