Fugu-MT 論文翻訳(概要): Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition

論文の概要: Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition

arxiv url: http://arxiv.org/abs/2403.13659v4
Date: Sat, 13 Apr 2024 22:52:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 20:12:09.257255
Title: Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition
Title（参考訳）: 三次元感情認識におけるマルチモーダルフュージョンのための再帰的関節交叉注意法
Authors: R. Gnana Praveen, Jahangir Alam,
Abstract要約: 本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を導入し,音声,視覚,テキストの両モード間の相互関係を次元的感情認識のために捉える。特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づく注目重みの計算を行う。 Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。
参考スコア（独自算出の注目度）: 3.5803801804085347
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Though multimodal emotion recognition has achieved significant progress over recent years, the potential of rich synergic relationships across the modalities is not fully exploited. In this paper, we introduce Recursive Joint Cross-Modal Attention (RJCMA) to effectively capture both intra- and inter-modal relationships across audio, visual, and text modalities for dimensional emotion recognition. In particular, we compute the attention weights based on cross-correlation between the joint audio-visual-text feature representations and the feature representations of individual modalities to simultaneously capture intra- and intermodal relationships across the modalities. The attended features of the individual modalities are again fed as input to the fusion model in a recursive mechanism to obtain more refined feature representations. We have also explored Temporal Convolutional Networks (TCNs) to improve the temporal modeling of the feature representations of individual modalities. Extensive experiments are conducted to evaluate the performance of the proposed fusion model on the challenging Affwild2 dataset. By effectively capturing the synergic intra- and inter-modal relationships across audio, visual, and text modalities, the proposed fusion model achieves a Concordance Correlation Coefficient (CCC) of 0.585 (0.542) and 0.674 (0.619) for valence and arousal respectively on the validation set(test set). This shows a significant improvement over the baseline of 0.240 (0.211) and 0.200 (0.191) for valence and arousal, respectively, in the validation set (test set), achieving second place in the valence-arousal challenge of the 6th Affective Behavior Analysis in-the-Wild (ABAW) competition.
Abstract（参考訳）: マルチモーダル感情認識は近年顕著な進歩を遂げているが、モーダル間の豊かなシナジー的関係の可能性は完全には活用されていない。本稿では,Recursive Joint Cross-Modal Attention (RJCMA)を導入し,音声,視覚,テキストの両モード間の相互関係を,次元的感情認識のために効果的に捉える。特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づいて注目重みを計算し,モーダル間の相互関係を同時に捉える。個々のモダリティの付随する特徴は、より洗練された特徴表現を得るために再帰的なメカニズムで融合モデルへの入力として再び供給される。我々はまた、個々のモーダルの特徴表現の時間的モデリングを改善するために、時間的畳み込みネットワーク(TCN)についても検討した。 Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。音声,視覚,テキスト間の相乗的相互関係を効果的に把握することにより,検証セット(テストセット)上でそれぞれ0.585(0.542)と0.674(0.619)の一致相関係数(CCC)を達成する。これは,第6回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションにおいて,評価セット(テストセット)において,それぞれ0.240(0.211)と0.200(0.191)の基準値に対して有意な改善がみられ,第6回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションにおいて2位となった。

関連論文リスト

United we stand, Divided we fall: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition in Valence-Arousal Space [3.1856756516735922]
本稿では,Gated Recursive Joint Cross Attention (GRJCA)について,最も関連性の高い特徴を適応的に選択可能なゲーティング機構を用いて紹介する。提案手法は, 補間関係の弱さに対処する柔軟性を付加することにより, RJCAモデルの性能を向上させる。
論文参考訳（メタデータ） (2025-03-15T21:03:20Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention [3.5803801804085347]
本稿では,クロスアテンショナル・フレームワークにおいて,共同音声・視覚的特徴表現が使用されるような,共同のクロスアテンショナル・モデルを提案する。また,音声・視覚的特徴表現の時間的モデリングを改善するため,BLSTMについても検討する。その結果,本モデルでは,モーダル内関係とモーダル間関係を良好に捉えることにより,融合性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-03-07T16:57:45Z)
Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。 HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文参考訳（メタデータ） (2023-05-23T01:24:15Z)
Recursive Joint Attention for Audio-Visual Fusion in Regression based Emotion Recognition [15.643176705932396]
映像に基づく感情認識では、音声(A)と視覚(V)の相補的関係を活用することが重要である。本稿では,AとVの相補的な性質を利用する可能性について,共同配置モデルを用いて検討する。我々のモデルは、AとVの融合において、モーダル内関係とモーダル間関係の両方を効率的に利用することができる。
論文参考訳（メタデータ） (2023-04-17T02:57:39Z)
Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文参考訳（メタデータ） (2022-09-19T15:01:55Z)
A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文参考訳（メタデータ） (2022-03-28T14:09:43Z)
Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition [13.994609732846344]
最も効果的な感情認識技術は、多種多様な情報ソースを効果的に活用する。本稿では,音声視覚(A-V)モダリティ間で有意な特徴を抽出するための相互注意型融合手法を提案する。その結果、我々のA-V融合モデルは、最先端の融合アプローチよりも優れたコスト効率のアプローチであることが示唆された。
論文参考訳（メタデータ） (2021-11-09T16:01:56Z)
Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。 ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文参考訳（メタデータ） (2021-05-28T14:25:49Z)
Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文参考訳（メタデータ） (2020-07-18T03:08:13Z)
Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文参考訳（メタデータ） (2020-03-09T17:05:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。