Fugu-MT 論文翻訳(概要): Modality-Collaborative Transformer with Hybrid Feature Reconstruction for Robust Emotion Recognition

論文の概要: Modality-Collaborative Transformer with Hybrid Feature Reconstruction for Robust Emotion Recognition

arxiv url: http://arxiv.org/abs/2312.15848v1
Date: Tue, 26 Dec 2023 01:59:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 16:06:01.355152
Title: Modality-Collaborative Transformer with Hybrid Feature Reconstruction for Robust Emotion Recognition
Title（参考訳）: ロバストな感情認識のためのハイブリッド特徴再構成型モダリティ協調トランス
Authors: Chengxin Chen, Pengyuan Zhang
Abstract要約: ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。 MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
参考スコア（独自算出の注目度）: 35.15390769958969
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As a vital aspect of affective computing, Multimodal Emotion Recognition has been an active research area in the multimedia community. Despite recent progress, this field still confronts two major challenges in real-world applications: 1) improving the efficiency of constructing joint representations from unaligned multimodal features, and 2) relieving the performance decline caused by random modality feature missing. In this paper, we propose a unified framework, Modality-Collaborative Transformer with Hybrid Feature Reconstruction (MCT-HFR), to address these issues. The crucial component of MCT is a novel attention-based encoder which concurrently extracts and dynamically balances the intra- and inter-modality relations for all associated modalities. With additional modality-wise parameter sharing, a more compact representation can be encoded with less time and space complexity. To improve the robustness of MCT, we further introduce HFR which consists of two modules: Local Feature Imagination (LFI) and Global Feature Alignment (GFA). During model training, LFI leverages complete features as supervisory signals to recover local missing features, while GFA is designed to reduce the global semantic gap between pairwise complete and incomplete representations. Experimental evaluations on two popular benchmark datasets demonstrate that our proposed method consistently outperforms advanced baselines in both complete and incomplete data scenarios.
Abstract（参考訳）: 感情コンピューティングの重要な側面として、マルチモーダル感情認識はマルチメディアコミュニティにおいて活発な研究領域となっている。最近の進歩にもかかわらず、この分野は現実世界のアプリケーションにおける2つの大きな課題に直面している。 1)不均一なマルチモーダル特徴からジョイント表現の構築効率を向上させること、及び 2) ランダムなモダリティ特徴の欠如による性能低下の軽減。本稿では,これらの問題に対処する統合フレームワークMCT-HFR(Modality-Collaborative Transformer with Hybrid Feature Restruction)を提案する。 mctの重要なコンポーネントは、関連するすべてのモダリティのモダリティ内およびモダリティ間関係を同時抽出および動的にバランスをとる、新しい注意に基づくエンコーダである。追加のモダリティ-ワイズパラメータ共有により、よりコンパクトな表現はより少ない時間と空間の複雑さでエンコードできる。 MCTのロバスト性を改善するため,ローカル・フィーチャー・イマジネーション(LFI)とグローバル・フィーチャー・アライメント(GFA)の2つのモジュールからなるHFRを導入する。モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。 2つの人気のあるベンチマークデータセットにおける実験的評価により,提案手法が完全かつ不完全なデータシナリオにおいて,先進的なベースラインを一貫して上回ることを示した。

関連論文リスト

Residual Prior-driven Frequency-aware Network for Image Fusion [6.90874640835234]
画像融合は、高品質な融合画像を生成するために、モダリティにまたがる相補的な情報を統合することを目的としている。本稿ではRPFNetと呼ばれる残差優先周波数対応ネットワークを提案する。
論文参考訳（メタデータ） (2025-07-09T10:48:00Z)
CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文参考訳（メタデータ） (2025-04-02T03:22:36Z)
MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection [20.584588303521496]
本稿では,効率的なマルチモーダル融合と階層的モダリティ選択のための2つの重要なプラグアンドプレイモジュールからなるMAGIC++フレームワークを紹介する。本手法は実世界のベンチマークと合成ベンチマークの両方で最先端の性能を実現する。本手法は, 先行技術よりも大きなマージンで優れる新奇なモダリティ非依存環境において, 優れた手法である。
論文参考訳（メタデータ） (2024-12-22T06:12:03Z)
Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文参考訳（メタデータ） (2024-09-21T12:02:47Z)
MMR-Mamba: Multi-Modal MRI Reconstruction with Mamba and Spatial-Frequency Information Fusion [17.084083262801737]
MMR-MambaはMRI再建のためのマルチモーダル機能を完全にかつ効率的に統合する新しいフレームワークである。具体的には,空間領域におけるTCM(Target modality-guided Cross Mamba)モジュールの設計を行う。次に、フーリエ領域におけるグローバル情報を効率的に統合するための選択周波数融合(SFF)モジュールを提案する。
論文参考訳（メタデータ） (2024-06-27T07:30:54Z)
Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。 AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文参考訳（メタデータ） (2024-05-06T11:02:02Z)
Deep Common Feature Mining for Efficient Video Semantic Segmentation [29.054945307605816]
ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。 DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。本手法は精度と効率のバランスが優れていることを示す。
論文参考訳（メタデータ） (2024-03-05T06:17:59Z)
Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文参考訳（メタデータ） (2022-10-27T12:16:25Z)
Efficient Multimodal Transformer with Dual-Level Feature Restoration for Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文参考訳（メタデータ） (2022-08-16T08:02:30Z)
Transformer-based Context Condensation for Boosting Feature Pyramids in Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文参考訳（メタデータ） (2022-07-14T01:45:03Z)
MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文参考訳（メタデータ） (2021-10-21T16:45:23Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。