論文の概要: TACFN: Transformer-based Adaptive Cross-modal Fusion Network for Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2505.06536v1
- Date: Sat, 10 May 2025 06:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.894975
- Title: TACFN: Transformer-based Adaptive Cross-modal Fusion Network for Multimodal Emotion Recognition
- Title(参考訳): TACFN:マルチモーダル感情認識のためのトランスフォーマに基づく適応型クロスモーダルフュージョンネットワーク
- Authors: Feng Liu, Ziwang Fu, Yunlong Wang, Qijian Zheng,
- Abstract要約: クロスモーダルアテンションに基づく核融合法は高い性能と強靭性を示す。
本稿では, 変圧器を用いた適応型クロスモーダル核融合ネットワーク(TACFN)を提案する。
実験結果から,TACFNは他の手法と比較して大きな性能向上が見られた。
- 参考スコア(独自算出の注目度): 5.9931594640934325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The fusion technique is the key to the multimodal emotion recognition task. Recently, cross-modal attention-based fusion methods have demonstrated high performance and strong robustness. However, cross-modal attention suffers from redundant features and does not capture complementary features well. We find that it is not necessary to use the entire information of one modality to reinforce the other during cross-modal interaction, and the features that can reinforce a modality may contain only a part of it. To this end, we design an innovative Transformer-based Adaptive Cross-modal Fusion Network (TACFN). Specifically, for the redundant features, we make one modality perform intra-modal feature selection through a self-attention mechanism, so that the selected features can adaptively and efficiently interact with another modality. To better capture the complementary information between the modalities, we obtain the fused weight vector by splicing and use the weight vector to achieve feature reinforcement of the modalities. We apply TCAFN to the RAVDESS and IEMOCAP datasets. For fair comparison, we use the same unimodal representations to validate the effectiveness of the proposed fusion method. The experimental results show that TACFN brings a significant performance improvement compared to other methods and reaches the state-of-the-art. All code and models could be accessed from https://github.com/shuzihuaiyu/TACFN.
- Abstract(参考訳): 融合技術はマルチモーダル感情認識タスクの鍵となる。
近年,クロスモーダルアテンションに基づく核融合法は高い性能と強靭性を実証している。
しかし、クロスモーダルな注意は冗長な特徴に悩まされており、補完的な特徴をうまく捉えていない。
相互モーダル相互作用において、一方のモーダルの全体情報を用いて他方のモーダルの強化を行う必要はなく、一方のモーダルを補強できる特徴は、その一部しか含まない可能性がある。
この目的のために、我々は革新的なトランスフォーマーベースの適応クロスモーダルフュージョンネットワーク(TACFN)を設計する。
具体的には、冗長な特徴に対して、1つのモダリティを自己アテンション機構を介してモーダル内特徴選択させ、選択した特徴が他のモダリティと適応的かつ効率的に相互作用できるようにする。
モーダル間の相補的な情報をよりよく捉えるために,重みベクトルをスプライシングして融合重みベクトルを求め,重みベクトルを用いてモーダルの特徴強化を行う。
TCAFNをRAVDESSおよびIEMOCAPデータセットに適用する。
公平な比較のために,提案手法の有効性を検証するために,同じ一助表現を用いる。
実験結果から,TACFNは他の手法に比べて性能が著しく向上し,最先端に到達していることがわかった。
すべてのコードとモデルはhttps://github.com/shuzihuaiyu/TACFNからアクセスできる。
関連論文リスト
- Selective Complementary Feature Fusion and Modal Feature Compression Interaction for Brain Tumor Segmentation [14.457627015612827]
マルチモーダル特徴情報の相補的融合と圧縮相互作用を実現するための補完的特徴圧縮相互作用ネットワーク(CFCI-Net)を提案する。
CFCI-Netは最先端モデルよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2025-03-20T13:52:51Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - RGBT Tracking via Progressive Fusion Transformer with Dynamically Guided
Learning [37.067605349559]
本稿ではProFormerと呼ばれる新しいプログレッシブフュージョントランスを提案する。
単一のモダリティ情報をマルチモーダル表現に統合し、堅牢なRGBT追跡を行う。
ProFormerは、RGBT210、RGBT234、LasHeR、VTUAVデータセットに新しい最先端パフォーマンスを設定する。
論文 参考訳(メタデータ) (2023-03-26T16:55:58Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。