論文の概要: Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition
- arxiv url: http://arxiv.org/abs/2312.15848v1
- Date: Tue, 26 Dec 2023 01:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:06:01.355152
- Title: Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition
- Title(参考訳): ロバストな感情認識のためのハイブリッド特徴再構成型モダリティ協調トランス
- Authors: Chengxin Chen, Pengyuan Zhang
- Abstract要約: ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
- 参考スコア(独自算出の注目度): 35.15390769958969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a vital aspect of affective computing, Multimodal Emotion Recognition has
been an active research area in the multimedia community. Despite recent
progress, this field still confronts two major challenges in real-world
applications: 1) improving the efficiency of constructing joint representations
from unaligned multimodal features, and 2) relieving the performance decline
caused by random modality feature missing. In this paper, we propose a unified
framework, Modality-Collaborative Transformer with Hybrid Feature
Reconstruction (MCT-HFR), to address these issues. The crucial component of MCT
is a novel attention-based encoder which concurrently extracts and dynamically
balances the intra- and inter-modality relations for all associated modalities.
With additional modality-wise parameter sharing, a more compact representation
can be encoded with less time and space complexity. To improve the robustness
of MCT, we further introduce HFR which consists of two modules: Local Feature
Imagination (LFI) and Global Feature Alignment (GFA). During model training,
LFI leverages complete features as supervisory signals to recover local missing
features, while GFA is designed to reduce the global semantic gap between
pairwise complete and incomplete representations. Experimental evaluations on
two popular benchmark datasets demonstrate that our proposed method
consistently outperforms advanced baselines in both complete and incomplete
data scenarios.
- Abstract(参考訳): 感情コンピューティングの重要な側面として、マルチモーダル感情認識はマルチメディアコミュニティにおいて活発な研究領域となっている。
最近の進歩にもかかわらず、この分野は現実世界のアプリケーションにおける2つの大きな課題に直面している。
1)不均一なマルチモーダル特徴からジョイント表現の構築効率を向上させること、及び
2) ランダムなモダリティ特徴の欠如による性能低下の軽減。
本稿では,これらの問題に対処する統合フレームワークMCT-HFR(Modality-Collaborative Transformer with Hybrid Feature Restruction)を提案する。
mctの重要なコンポーネントは、関連するすべてのモダリティのモダリティ内およびモダリティ間関係を同時抽出および動的にバランスをとる、新しい注意に基づくエンコーダである。
追加のモダリティ-ワイズパラメータ共有により、よりコンパクトな表現はより少ない時間と空間の複雑さでエンコードできる。
MCTのロバスト性を改善するため,ローカル・フィーチャー・イマジネーション(LFI)とグローバル・フィーチャー・アライメント(GFA)の2つのモジュールからなるHFRを導入する。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
2つの人気のあるベンチマークデータセットにおける実験的評価により,提案手法が完全かつ不完全なデータシナリオにおいて,先進的なベースラインを一貫して上回ることを示した。
関連論文リスト
- Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。
提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T12:02:47Z) - MMR-Mamba: Multi-Modal MRI Reconstruction with Mamba and Spatial-Frequency Information Fusion [17.084083262801737]
MMR-MambaはMRI再建のためのマルチモーダル機能を完全にかつ効率的に統合する新しいフレームワークである。
具体的には,空間領域におけるTCM(Target modality-guided Cross Mamba)モジュールの設計を行う。
次に、フーリエ領域におけるグローバル情報を効率的に統合するための選択周波数融合(SFF)モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-27T07:30:54Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Deep Common Feature Mining for Efficient Video Semantic Segmentation [29.054945307605816]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。
DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。
本手法は精度と効率のバランスが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-05T06:17:59Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。