論文の概要: Cross-modal Prompting for Balanced Incomplete Multi-modal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2512.11239v1
- Date: Fri, 12 Dec 2025 02:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.634624
- Title: Cross-modal Prompting for Balanced Incomplete Multi-modal Emotion Recognition
- Title(参考訳): バランス不完全マルチモーダル感情認識のためのクロスモーダルプロンプト
- Authors: Wen-Jue He, Xiaofeng Zhu, Zheng Zhang,
- Abstract要約: 我々は,モダリティに特有な特徴の強化によってコヒーレントな情報を強調する,新しいクロスモーダル・プロンプト法(ComP)を考案した。
ComP法は、各モードの性能を向上することにより、全体的な認識精度を向上させる。
7SOTA法を用いて4つのデータセット実験を行い,提案手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 14.469741471849249
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Incomplete multi-modal emotion recognition (IMER) aims at understanding human intentions and sentiments by comprehensively exploring the partially observed multi-source data. Although the multi-modal data is expected to provide more abundant information, the performance gap and modality under-optimization problem hinder effective multi-modal learning in practice, and are exacerbated in the confrontation of the missing data. To address this issue, we devise a novel Cross-modal Prompting (ComP) method, which emphasizes coherent information by enhancing modality-specific features and improves the overall recognition accuracy by boosting each modality's performance. Specifically, a progressive prompt generation module with a dynamic gradient modulator is proposed to produce concise and consistent modality semantic cues. Meanwhile, cross-modal knowledge propagation selectively amplifies the consistent information in modality features with the delivered prompts to enhance the discrimination of the modality-specific output. Additionally, a coordinator is designed to dynamically re-weight the modality outputs as a complement to the balance strategy to improve the model's efficacy. Extensive experiments on 4 datasets with 7 SOTA methods under different missing rates validate the effectiveness of our proposed method.
- Abstract(参考訳): 不完全なマルチモーダル感情認識(IMER)は、部分的に観察されたマルチソースデータを包括的に探索することで、人間の意図や感情を理解することを目的としている。
マルチモーダルデータはより豊富な情報を提供することが期待されているが、性能ギャップと過度な最適化問題により、実際は効果的なマルチモーダル学習が妨げられ、欠落したデータの対決においてさらに悪化する。
この問題に対処するために,モダリティ固有の特徴の強化によるコヒーレントな情報強調と,各モダリティの性能向上による全体的な認識精度の向上を両立するクロスモーダル・プロンプト法(ComP)を提案する。
具体的には、動的勾配変調器を備えたプログレッシブプロンプト生成モジュールを提案し、簡潔で一貫したモダリティセマンティックキューを生成する。
一方、クロスモーダルな知識伝搬は、モーダルな特徴の一貫性のある情報を配信プロンプトで選択的に増幅し、モーダル固有の出力の識別を強化する。
さらに、コーディネータは、モデルの有効性を改善するためのバランス戦略の補完として、モダリティ出力を動的に再重み付けするように設計されている。
欠損率の異なる7SOTA法による4つのデータセットの大規模な実験により,提案手法の有効性が検証された。
関連論文リスト
- ADMC: Attention-based Diffusion Model for Missing Modalities Feature Completion [25.1725138364452]
注意に基づく障害特徴補完(ADMC)のための拡散モデルを提案する。
本フレームワークは,各モダリティに対する特徴抽出ネットワークを独立に訓練し,その特性を保ち,オーバーカップリングを回避する。
提案手法は,IEMOCAPおよびMIntRecベンチマークの最先端結果を実現し,欠落シナリオと完全モダリティシナリオの両方において,その有効性を示す。
論文 参考訳(メタデータ) (2025-07-08T03:08:52Z) - GAMED: Knowledge Adaptive Multi-Experts Decoupling for Multimodal Fake News Detection [18.157900272828602]
マルチモーダルフェイクニュース検出は、視覚や言語などの異種データソースをモデル化することが多い。
本稿では,マルチモーダルモデリングのための GAMED を新たに開発する。
横断的なシナジーを強化するために、モーダルデカップリングを通じて特徴的で差別的な特徴を生み出すことに焦点を当てている。
論文 参考訳(メタデータ) (2024-12-11T19:12:22Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。