Fugu-MT 論文翻訳(概要): Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition

論文の概要: Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition

arxiv url: http://arxiv.org/abs/2111.05222v2
Date: Sat, 6 Jul 2024 14:47:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-10 06:02:09.232218
Title: Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition
Title（参考訳）: 三次元感情認識のためのクロスアテンショナルオーディオ・ビジュアルフュージョン
Authors: R. Gnana Praveen, Eric Granger, Patrick Cardinal,
Abstract要約: 最も効果的な感情認識技術は、多種多様な情報ソースを効果的に活用する。本稿では,音声視覚(A-V)モダリティ間で有意な特徴を抽出するための相互注意型融合手法を提案する。その結果、我々のA-V融合モデルは、最先端の融合アプローチよりも優れたコスト効率のアプローチであることが示唆された。
参考スコア（独自算出の注目度）: 13.994609732846344
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal analysis has recently drawn much interest in affective computing, since it can improve the overall accuracy of emotion recognition over isolated uni-modal approaches. The most effective techniques for multimodal emotion recognition efficiently leverage diverse and complimentary sources of information, such as facial, vocal, and physiological modalities, to provide comprehensive feature representations. In this paper, we focus on dimensional emotion recognition based on the fusion of facial and vocal modalities extracted from videos, where complex spatiotemporal relationships may be captured. Most of the existing fusion techniques rely on recurrent networks or conventional attention mechanisms that do not effectively leverage the complimentary nature of audio-visual (A-V) modalities. We introduce a cross-attentional fusion approach to extract the salient features across A-V modalities, allowing for accurate prediction of continuous values of valence and arousal. Our new cross-attentional A-V fusion model efficiently leverages the inter-modal relationships. In particular, it computes cross-attention weights to focus on the more contributive features across individual modalities, and thereby combine contributive feature representations, which are then fed to fully connected layers for the prediction of valence and arousal. The effectiveness of the proposed approach is validated experimentally on videos from the RECOLA and Fatigue (private) data-sets. Results indicate that our cross-attentional A-V fusion model is a cost-effective approach that outperforms state-of-the-art fusion approaches. Code is available: \url{https://github.com/praveena2j/Cross-Attentional-AV-Fusion}
Abstract（参考訳）: マルチモーダル分析は、孤立したユニモーダルアプローチよりも感情認識の全体的な精度を向上させることができるため、近年、感情コンピューティングに大きな関心を寄せている。マルチモーダル感情認識の最も効果的な技術は、顔、声、生理的モダリティといった多種多様な情報ソースを効果的に活用し、包括的特徴表現を提供する。本稿では,複雑な時空間関係を捉えた映像から抽出した顔と声のモダリティの融合に基づく次元的感情認識に焦点を当てた。既存の融合技術の多くは、オーディオ・ヴィジュアル(A-V)モダリティの補完的な性質を効果的に活用しないリカレント・ネットワークや従来の注意機構に依存している。本研究では,A-Vモダリティ間の有意な特徴を抽出し,有価値と覚醒値の連続的な値の正確な予測を可能にする。我々の新しいA-V融合モデルは、モーダル間の関係を効率的に活用する。特に、クロスアテンション重みを計算し、個々のモダリティにまたがるよりコントリビューティブな特徴に焦点を合わせ、コントリビューティブな特徴表現を組み合わせる。提案手法の有効性をRECOLAと疲労(私的)データセットの動画で実験的に検証した。その結果、我々のA-V融合モデルは、最先端の核融合モデルよりも優れたコスト効率のアプローチであることが示唆された。コードは: \url{https://github.com/praveena2j/Cross-Attentional-AV-Fusion}

関連論文リスト

AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
Milmer: a Framework for Multiple Instance Learning based Multimodal Emotion Recognition [16.616341358877243]
本研究は,表情解析と脳波信号の統合による感情認識の課題に対処する。提案するフレームワークは、視覚的および生理的モダリティを効果的に統合するために、トランスフォーマーベースの融合アプローチを採用している。この研究の重要な革新は、複数の表情画像から意味のある情報を抽出する多重インスタンス学習(MIL)アプローチの採用である。
論文参考訳（メタデータ） (2025-02-01T20:32:57Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
Dynamic Cross Attention for Audio-Visual Person Verification [3.5803801804085347]
本研究では,動的クロスアテンション(DCA)モデルを提案する。特に、コンディショナルゲーティング層は、クロスアテンション機構の寄与を評価するように設計されている。 Voxceleb1データセットで大規模な実験を行い、提案モデルの堅牢性を実証した。
論文参考訳（メタデータ） (2024-03-07T17:07:51Z)
Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention [3.5803801804085347]
本稿では,クロスアテンショナル・フレームワークにおいて,共同音声・視覚的特徴表現が使用されるような,共同のクロスアテンショナル・モデルを提案する。また,音声・視覚的特徴表現の時間的モデリングを改善するため,BLSTMについても検討する。その結果,本モデルでは,モーダル内関係とモーダル間関係を良好に捉えることにより,融合性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-03-07T16:57:45Z)
From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文参考訳（メタデータ） (2023-12-31T08:13:47Z)
Disentangled Interaction Representation for One-Stage Human-Object Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文参考訳（メタデータ） (2023-12-04T08:02:59Z)
A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition [54.44337276044968]
低ランクマッチング注意法(LMAM)と呼ばれる新しい軽量クロスモーダル機能融合法を提案する。 LMAMは、会話における文脈的感情的意味情報を効果的に捉え、自己認識機構によって引き起こされる二次的複雑性問題を緩和する。実験により, LMAMの軽量化を前提として, 他の一般的な相互拡散法と比較し, LMAMの優位性を検証した。
論文参考訳（メタデータ） (2023-06-16T16:02:44Z)
Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文参考訳（メタデータ） (2022-09-19T15:01:55Z)
A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文参考訳（メタデータ） (2022-03-28T14:09:43Z)
MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文参考訳（メタデータ） (2022-01-24T17:48:04Z)
A cross-modal fusion network based on self-attention and residual structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文参考訳（メタデータ） (2021-11-03T12:24:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。