Fugu-MT 論文翻訳(概要): Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space Using Joint Cross-Attention

論文の概要: Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space Using Joint Cross-Attention

arxiv url: http://arxiv.org/abs/2209.09068v1
Date: Mon, 19 Sep 2022 15:01:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-20 18:37:20.524038
Title: Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space Using Joint Cross-Attention
Title（参考訳）: 交叉姿勢を用いたヴァレンス覚醒空間における感情認識のためのオーディオ・ビジュアルフュージョン
Authors: R Gnana Praveen, Eric Granger, Patrick Cardinal
Abstract要約: 本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
参考スコア（独自算出の注目度）: 15.643176705932396
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic emotion recognition (ER) has recently gained lot of interest due to its potential in many real-world applications. In this context, multimodal approaches have been shown to improve performance (over unimodal approaches) by combining diverse and complementary sources of information, providing some robustness to noisy and missing modalities. In this paper, we focus on dimensional ER based on the fusion of facial and vocal modalities extracted from videos, where complementary audio-visual (A-V) relationships are explored to predict an individual's emotional states in valence-arousal space. Most state-of-the-art fusion techniques rely on recurrent networks or conventional attention mechanisms that do not effectively leverage the complementary nature of A-V modalities. To address this problem, we introduce a joint cross-attentional model for A-V fusion that extracts the salient features across A-V modalities, that allows to effectively leverage the inter-modal relationships, while retaining the intra-modal relationships. In particular, it computes the cross-attention weights based on correlation between the joint feature representation and that of the individual modalities. By deploying the joint A-V feature representation into the cross-attention module, it helps to simultaneously leverage both the intra and inter modal relationships, thereby significantly improving the performance of the system over the vanilla cross-attention module. The effectiveness of our proposed approach is validated experimentally on challenging videos from the RECOLA and AffWild2 datasets. Results indicate that our joint cross-attentional A-V fusion model provides a cost-effective solution that can outperform state-of-the-art approaches, even when the modalities are noisy or absent.
Abstract（参考訳）: 感情の自動認識(ER)は、多くの現実世界のアプリケーションにおいてその可能性から、最近多くの関心を集めている。この文脈において、マルチモーダルなアプローチは、多種多様な情報ソースと相補的な情報ソースを組み合わせることで、(単調なアプローチよりも)性能を改善することが示されている。本稿では,映像から抽出した顔と声のモダリティの融合に基づく次元ERに着目し,声道空間における個人の感情状態を予測するために,相補的音声視覚(A-V)関係を探索する。ほとんどの最先端の融合技術は、a-vモードの相補的性質を効果的に活用しないリカレントネットワークや従来の注意機構に依存している。そこで本研究では, モーダル間関係を効果的に活用し, モーダル内関係を保ちながら, モーダル間関係を効果的に活用する, A-V融合のための連関型相互注意モデルを提案する。特に、ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。連立A-V特徴表現をクロスアテンションモジュールに展開することにより、イントラとインターモーダルの関係を同時に活用し、バニラのクロスアテンションモジュール上でのシステム性能を大幅に改善する。提案手法の有効性は,RECOLAおよびAffWild2データセットからの挑戦ビデオに対して実験的に検証した。以上の結果から,我々の連立アテンショナルA-V融合モデルでは,ノイズや不在であっても,最先端のアプローチよりも優れたコスト効率のソリューションが得られている。

関連論文リスト

AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
Inconsistency-Aware Cross-Attention for Audio-Visual Fusion in Dimensional Emotion Recognition [3.1967132086545127]
モーダル性にまたがる相補的関係の活用は、近年、マルチモーダル感情認識において多くの注目を集めている。 Inconsistency-Aware Cross-Attention (IACA) を提案する。 Aff-Wild2データセットを用いて,提案モデルの堅牢性を示す実験を行った。
論文参考訳（メタデータ） (2024-05-21T15:11:35Z)
Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition [3.5803801804085347]
本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を導入し,音声,視覚,テキストの両モード間の相互関係を次元的感情認識のために捉える。特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づく注目重みの計算を行う。 Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。
論文参考訳（メタデータ） (2024-03-20T15:08:43Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition [54.44337276044968]
低ランクマッチング注意法(LMAM)と呼ばれる新しい軽量クロスモーダル機能融合法を提案する。 LMAMは、会話における文脈的感情的意味情報を効果的に捉え、自己認識機構によって引き起こされる二次的複雑性問題を緩和する。実験により, LMAMの軽量化を前提として, 他の一般的な相互拡散法と比較し, LMAMの優位性を検証した。
論文参考訳（メタデータ） (2023-06-16T16:02:44Z)
Recursive Joint Attention for Audio-Visual Fusion in Regression based Emotion Recognition [15.643176705932396]
映像に基づく感情認識では、音声(A)と視覚(V)の相補的関係を活用することが重要である。本稿では,AとVの相補的な性質を利用する可能性について,共同配置モデルを用いて検討する。我々のモデルは、AとVの融合において、モーダル内関係とモーダル間関係の両方を効率的に利用することができる。
論文参考訳（メタデータ） (2023-04-17T02:57:39Z)
A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文参考訳（メタデータ） (2022-03-28T14:09:43Z)
Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition [13.994609732846344]
最も効果的な感情認識技術は、多種多様な情報ソースを効果的に活用する。本稿では,音声視覚(A-V)モダリティ間で有意な特徴を抽出するための相互注意型融合手法を提案する。その結果、我々のA-V融合モデルは、最先端の融合アプローチよりも優れたコスト効率のアプローチであることが示唆された。
論文参考訳（メタデータ） (2021-11-09T16:01:56Z)
Learning Multimodal VAEs through Mutual Supervision [72.77685889312889]
MEMEは、相互監督を通じて暗黙的にモダリティ間の情報を結合する。我々は、MEMEが、部分的および完全観察スキームの双方で標準メトリクスのベースラインを上回ることを実証する。
論文参考訳（メタデータ） (2021-06-23T17:54:35Z)
Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。 ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文参考訳（メタデータ） (2021-05-28T14:25:49Z)
Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文参考訳（メタデータ） (2020-07-18T03:08:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。