論文の概要: Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition
- arxiv url: http://arxiv.org/abs/2312.15848v1
- Date: Tue, 26 Dec 2023 01:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:06:01.355152
- Title: Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition
- Title(参考訳): ロバストな感情認識のためのハイブリッド特徴再構成型モダリティ協調トランス
- Authors: Chengxin Chen, Pengyuan Zhang
- Abstract要約: ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
- 参考スコア(独自算出の注目度): 35.15390769958969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a vital aspect of affective computing, Multimodal Emotion Recognition has
been an active research area in the multimedia community. Despite recent
progress, this field still confronts two major challenges in real-world
applications: 1) improving the efficiency of constructing joint representations
from unaligned multimodal features, and 2) relieving the performance decline
caused by random modality feature missing. In this paper, we propose a unified
framework, Modality-Collaborative Transformer with Hybrid Feature
Reconstruction (MCT-HFR), to address these issues. The crucial component of MCT
is a novel attention-based encoder which concurrently extracts and dynamically
balances the intra- and inter-modality relations for all associated modalities.
With additional modality-wise parameter sharing, a more compact representation
can be encoded with less time and space complexity. To improve the robustness
of MCT, we further introduce HFR which consists of two modules: Local Feature
Imagination (LFI) and Global Feature Alignment (GFA). During model training,
LFI leverages complete features as supervisory signals to recover local missing
features, while GFA is designed to reduce the global semantic gap between
pairwise complete and incomplete representations. Experimental evaluations on
two popular benchmark datasets demonstrate that our proposed method
consistently outperforms advanced baselines in both complete and incomplete
data scenarios.
- Abstract(参考訳): 感情コンピューティングの重要な側面として、マルチモーダル感情認識はマルチメディアコミュニティにおいて活発な研究領域となっている。
最近の進歩にもかかわらず、この分野は現実世界のアプリケーションにおける2つの大きな課題に直面している。
1)不均一なマルチモーダル特徴からジョイント表現の構築効率を向上させること、及び
2) ランダムなモダリティ特徴の欠如による性能低下の軽減。
本稿では,これらの問題に対処する統合フレームワークMCT-HFR(Modality-Collaborative Transformer with Hybrid Feature Restruction)を提案する。
mctの重要なコンポーネントは、関連するすべてのモダリティのモダリティ内およびモダリティ間関係を同時抽出および動的にバランスをとる、新しい注意に基づくエンコーダである。
追加のモダリティ-ワイズパラメータ共有により、よりコンパクトな表現はより少ない時間と空間の複雑さでエンコードできる。
MCTのロバスト性を改善するため,ローカル・フィーチャー・イマジネーション(LFI)とグローバル・フィーチャー・アライメント(GFA)の2つのモジュールからなるHFRを導入する。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
2つの人気のあるベンチマークデータセットにおける実験的評価により,提案手法が完全かつ不完全なデータシナリオにおいて,先進的なベースラインを一貫して上回ることを示した。
関連論文リスト
- Deep Common Feature Mining for Efficient Video Semantic Segmentation [29.054945307605816]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。
DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。
本手法は精度と効率のバランスが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-05T06:17:59Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - Disentangled Federated Learning for Tackling Attributes Skew via
Invariant Aggregation and Diversity Transferring [104.19414150171472]
属性は、クライアント間の一貫した最適化方向から、現在の連邦学習(FL)フレームワークを歪めます。
本稿では,ドメイン固有属性とクロス不変属性を2つの補足枝に分離するために,非絡み付きフェデレーション学習(DFL)を提案する。
実験により、DFLはSOTA FL法と比較して高い性能、より良い解釈可能性、より高速な収束率でFLを促進することが確認された。
論文 参考訳(メタデータ) (2022-06-14T13:12:12Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。