論文の概要: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition
- arxiv url: http://arxiv.org/abs/2503.12261v1
- Date: Sat, 15 Mar 2025 21:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:27:50.574868
- Title: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition
- Title(参考訳): 聴覚・視覚的感情認識のための弱相補関係の処理
- Authors: R. Gnana Praveen, Jahangir Alam,
- Abstract要約: ゲート型アテンション機構を用いて、弱い相補関係に適応できるフレキシブルな音声-視覚融合モデルを提案する。
提案したモデルは、挑戦的なAffwild2データセットで評価され、最先端の融合アプローチよりも大幅に優れている。
- 参考スコア(独自算出の注目度): 3.5803801804085347
- License:
- Abstract: Multimodal emotion recognition has recently drawn a lot of interest in affective computing as it has immense potential to outperform isolated unimodal approaches. Audio and visual modalities are two predominant contact-free channels in videos, which are often expected to carry a complementary relationship with each other. However, audio and visual channels may not always be complementary with each other, resulting in poor audio-visual feature representations, thereby degrading the performance of the system. In this paper, we propose a flexible audio-visual fusion model that can adapt to weak complementary relationships using a gated attention mechanism. Specifically, we extend the recursive joint cross-attention model by introducing gating mechanism in every iteration to control the flow of information between the input features and the attended features depending on the strength of their complementary relationship. For instance, if the modalities exhibit strong complementary relationships, the gating mechanism chooses cross-attended features, otherwise non-attended features. To further improve the performance of the system, we further introduce stage gating mechanism, which is used to control the flow of information across the gated outputs of each iteration. Therefore, the proposed model improves the performance of the system even when the audio and visual modalities do not have a strong complementary relationship with each other by adding more flexibility to the recursive joint cross attention mechanism. The proposed model has been evaluated on the challenging Affwild2 dataset and significantly outperforms the state-of-the-art fusion approaches.
- Abstract(参考訳): マルチモーダル感情認識は、最近、孤立した単調なアプローチよりも優れた可能性を秘めているため、感情コンピューティングに多くの関心を寄せている。
音声と視覚のモダリティは、ビデオにおける2つの主要な接触のないチャンネルであり、しばしば相互に補完的な関係が期待されている。
しかし、音声と視覚のチャンネルは必ずしも相補的なものではなく、結果として音声と視覚の特徴表現が貧弱になり、システムの性能が低下する。
本稿では、ゲート型アテンション機構を用いて、弱い相補関係に適応できるフレキシブルな音声-視覚融合モデルを提案する。
具体的には、各イテレーションにゲーティング機構を導入し、相補関係の強さに応じて入力特徴と付随特徴との間の情報の流れを制御することにより、再帰的関節交叉モデルを拡張する。
例えば、モダリティが強い相補的関係を示す場合、ゲーティング機構は、横断的特徴、そうでなければ非付随的特徴を選択する。
システムの性能をさらに向上させるために,各イテレーションのゲート出力をまたいだ情報の流れを制御するためのステージゲーティング機構を導入する。
したがって,再帰的な連接注意機構に柔軟性を付加することにより,音声と視覚のモーダルティが相互に強い相補関係を持たない場合でも,システムの性能が向上する。
提案したモデルは、挑戦的なAffwild2データセットで評価され、最先端の融合アプローチよりも大幅に優れている。
関連論文リスト
- Semantic Communication for Cooperative Perception using HARQ [51.148203799109304]
我々は重要セマンティック情報を抽出するために重要地図を活用し、協調的な知覚セマンティックコミュニケーションフレームワークを導入する。
周波数分割多重化(OFDM)とチャネル推定と等化戦略を併用して,時間変化によるマルチパスフェーディングによる課題に対処する。
我々は,ハイブリッド自動繰り返し要求(HARQ)の精神において,我々の意味コミュニケーションフレームワークと統合された新しい意味エラー検出手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T08:53:26Z) - Inconsistency-Aware Cross-Attention for Audio-Visual Fusion in Dimensional Emotion Recognition [3.1967132086545127]
モーダル性にまたがる相補的関係の活用は、近年、マルチモーダル感情認識において多くの注目を集めている。
Inconsistency-Aware Cross-Attention (IACA) を提案する。
Aff-Wild2データセットを用いて,提案モデルの堅牢性を示す実験を行った。
論文 参考訳(メタデータ) (2024-05-21T15:11:35Z) - Cross-Attention is Not Always Needed: Dynamic Cross-Attention for Audio-Visual Dimensional Emotion Recognition [3.5803801804085347]
本研究では,動的クロスアテンション(DCA)を提案する。
本稿では,RECOLAとAff-Wild2データセットに対する提案手法の性能評価を行う。
論文 参考訳(メタデータ) (2024-03-28T16:38:04Z) - Dynamic Cross Attention for Audio-Visual Person Verification [3.5803801804085347]
本研究では,動的クロスアテンション(DCA)モデルを提案する。
特に、コンディショナルゲーティング層は、クロスアテンション機構の寄与を評価するように設計されている。
Voxceleb1データセットで大規模な実験を行い、提案モデルの堅牢性を実証した。
論文 参考訳(メタデータ) (2024-03-07T17:07:51Z) - Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention [3.5803801804085347]
本稿では,クロスアテンショナル・フレームワークにおいて,共同音声・視覚的特徴表現が使用されるような,共同のクロスアテンショナル・モデルを提案する。
また,音声・視覚的特徴表現の時間的モデリングを改善するため,BLSTMについても検討する。
その結果,本モデルでは,モーダル内関係とモーダル間関係を良好に捉えることにより,融合性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-03-07T16:57:45Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space
Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。
ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。
以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文 参考訳(メタデータ) (2022-09-19T15:01:55Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。