Fugu-MT 論文翻訳(概要): Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities

論文の概要: Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities

arxiv url: http://arxiv.org/abs/2210.15359v1
Date: Thu, 27 Oct 2022 12:16:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 12:53:04.042415
Title: Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities
Title（参考訳）: モダリティを欠いたロバストなマルチモーダル感情認識のためのモダリティ不変特徴の活用
Authors: Haolin Zuo, Rui Liu, Jinming Zhao, Guanglai Gao, Haizhou Li
Abstract要約: 我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
参考スコア（独自算出の注目度）: 76.08541852988536
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal emotion recognition leverages complementary information across modalities to gain performance. However, we cannot guarantee that the data of all modalities are always present in practice. In the studies to predict the missing data across modalities, the inherent difference between heterogeneous modalities, namely the modality gap, presents a challenge. To address this, we propose to use invariant features for a missing modality imagination network (IF-MMIN) which includes two novel mechanisms: 1) an invariant feature learning strategy that is based on the central moment discrepancy (CMD) distance under the full-modality scenario; 2) an invariant feature based imagination module (IF-IM) to alleviate the modality gap during the missing modalities prediction, thus improving the robustness of multimodal joint representation. Comprehensive experiments on the benchmark dataset IEMOCAP demonstrate that the proposed model outperforms all baselines and invariantly improves the overall emotion recognition performance under uncertain missing-modality conditions. We release the code at: https://github.com/ZhuoYulang/IF-MMIN.
Abstract（参考訳）: マルチモーダル感情認識は、パフォーマンスを得るためにモダリティ間の補完的情報を活用する。しかし、すべてのモダリティのデータが実際に常に存在することは保証できない。モダリティにまたがるデータの欠落を予測する研究において、不均質なモダリティ、すなわちモダリティギャップの間の本質的な差が課題となっている。これを解決するために,2つの新しいメカニズムを含むモダリティ・イマジネーション・ネットワーク (IF-MMIN) に不変な特徴を用いることを提案する。 1) 完全モダリティシナリオにおける中心モーメント不一致(cmd)距離に基づく不変特徴学習戦略 2) 欠落モダリティ予測中のモダリティギャップを緩和する不変特徴に基づくイマジネーション加群(if-im)により,マルチモーダル結合表現のロバスト性が向上する。ベンチマークデータセットIEMOCAPの総合的な実験により、提案モデルはすべてのベースラインを上回り、不確実なモダリティ条件下で全体の感情認識性能を不変に向上することを示した。コードについては、https://github.com/ZhuoYulang/IF-MMIN.comで公開しています。

関連論文リスト

Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文参考訳（メタデータ） (2025-08-07T02:51:10Z)
Disentangling and Generating Modalities for Recommendation in Missing Modality Scenarios [21.73914052076956]
本稿では,モダリティを欠くシナリオに対して,DGMレコメンダ(Disentangling and Generating Modality Recommender)を提案する。 DGMRecは、情報ベースの観点から、モダリティの特徴を一般的な、特定のモダリティの特徴に分解する。挑戦的なシナリオでは、最先端のMSSよりも一貫して優れています。
論文参考訳（メタデータ） (2025-04-23T02:04:14Z)
MDE: Modality Discrimination Enhancement for Multi-modal Recommendation [17.94842763325326]
マルチモーダルレコメンデーションシステムのためのMDEフレームワークを提案する。 MDEは、共有機能を維持しながらレコメンデーション精度を向上させるために、モダリティ固有の情報抽出を優先する。提案手法は、他の最先端手法よりも優れており、モダリティ共有とモダリティ特化の特徴を共同で検討することの有効性を実証している。
論文参考訳（メタデータ） (2025-02-08T03:36:14Z)
AMM-Diff: Adaptive Multi-Modality Diffusion Network for Missing Modality Imputation [2.8498944632323755]
臨床実践において、フルイメージングは必ずしも実現可能ではなく、多くの場合、複雑な取得プロトコル、厳格なプライバシ規則、特定の臨床ニーズのためである。有望な解決策は、利用可能なものから欠落したモダリティが生成されるデータ計算の欠如である。適応多モード拡散ネットワーク (AMM-Diff) を提案する。
論文参考訳（メタデータ） (2025-01-22T12:29:33Z)
Modality-Invariant Bidirectional Temporal Representation Distillation Network for Missing Multimodal Sentiment Analysis [6.15602203132432]
モダリティ不変な双方向時間表現蒸留ネットワーク(MITR-DNet)を導入する。 MITR-DNetは蒸留方式を採用しており、完全なモダリティの教師モデルは、モダリティの学生モデルが欠けていることをガイドし、モダリティの欠如の有無で堅牢性を確保する。
論文参考訳（メタデータ） (2025-01-07T07:57:16Z)
Towards Modality Generalization: A Benchmark and Prospective Analysis [56.84045461854789]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文参考訳（メタデータ） (2024-12-24T08:38:35Z)
Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文参考訳（メタデータ） (2024-10-15T08:49:38Z)
Progressively Modality Freezing for Multi-Modal Entity Alignment [27.77877721548588]
本稿では,アライメント関連特徴に焦点をあてた,PMFと呼ばれる進行モード凍結の新たな戦略を提案する。特に,本手法では,モーダル整合性を高めるために,クロスモーダルなアソシエーション損失を先駆的に導入する。 9つのデータセットの実証的な評価により、PMFの優位性が確認された。
論文参考訳（メタデータ） (2024-07-23T04:22:30Z)
Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。 4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文参考訳（メタデータ） (2024-07-16T03:34:38Z)
Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。 AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文参考訳（メタデータ） (2024-05-06T11:02:02Z)
Fourier Prompt Tuning for Modality-Incomplete Scene Segmentation [37.06795681738417]
Modality-Incomplete Scene (MISS)は、システムレベルのモダリティ不在とセンサーレベルのモダリティエラーの両方を含むタスクである。我々は,MMS(Missing-Aware Modal Switch)戦略を導入し,トレーニング中に欠落したモダリティを積極的に管理する。従来のパラメータ効率向上手法よりも5.84%mIoUが改良され,モダリティの欠如が認められた。
論文参考訳（メタデータ） (2024-01-30T11:46:27Z)
Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文参考訳（メタデータ） (2024-01-21T11:55:42Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。