論文の概要: United we stand, Divided we fall: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition in Valence-Arousal Space
- arxiv url: http://arxiv.org/abs/2503.12261v2
- Date: Fri, 21 Mar 2025 16:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 13:34:24.052059
- Title: United we stand, Divided we fall: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition in Valence-Arousal Space
- Title(参考訳): United We Stand, Divided We Fall: Handling Weak Complementary Relationships for Audio-Visual Emotion Recognition in Valence-Arousal Space
- Authors: R. Gnana Praveen, Jahangir Alam, Eric Charton,
- Abstract要約: 本稿では,Gated Recursive Joint Cross Attention (GRJCA)について,最も関連性の高い特徴を適応的に選択可能なゲーティング機構を用いて紹介する。
提案手法は, 補間関係の弱さに対処する柔軟性を付加することにより, RJCAモデルの性能を向上させる。
- 参考スコア(独自算出の注目度): 3.1856756516735922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio and visual modalities are two predominant contact-free channels in videos, which are often expected to carry a complementary relationship with each other. However, they may not always complement each other, resulting in poor audio-visual feature representations. In this paper, we introduce Gated Recursive Joint Cross Attention (GRJCA) using a gating mechanism that can adaptively choose the most relevant features to effectively capture the synergic relationships across audio and visual modalities. Specifically, we improve the performance of Recursive Joint Cross-Attention (RJCA) by introducing a gating mechanism to control the flow of information between the input features and the attended features of multiple iterations depending on the strength of their complementary relationship. For instance, if the modalities exhibit strong complementary relationships, the gating mechanism emphasizes cross-attended features, otherwise non-attended features. To further improve the performance of the system, we also explored a hierarchical gating approach by introducing a gating mechanism at every iteration, followed by high-level gating across the gated outputs of each iteration. The proposed approach improves the performance of RJCA model by adding more flexibility to deal with weak complementary relationships across audio and visual modalities. Extensive experiments are conducted on the challenging Affwild2 dataset to demonstrate the robustness of the proposed approach. By effectively handling the weak complementary relationships across the audio and visual modalities, the proposed model achieves a Concordance Correlation Coefficient (CCC) of 0.561 (0.623) and 0.620 (0.660) for valence and arousal respectively on the test set (validation set).
- Abstract(参考訳): 音声と視覚のモダリティは、ビデオにおける2つの主要な接触のないチャンネルであり、しばしば相互に補完的な関係が期待されている。
しかし、それらが互いに補完するとは限らないため、オーディオ・視覚的特徴表現が貧弱になる。
本稿では, Gated Recursive Joint Cross Attention (GRJCA) について,最も関連性の高い特徴を適応的に選択し, 音声と視覚の相乗関係を効果的に把握するゲーティング機構を用いて紹介する。
具体的には、入力特徴と複数の反復の特徴との間の情報の流れを、相補関係の強さに応じて制御するゲーティング機構を導入することにより、再帰的連係注意(RJCA)の性能を向上させる。
例えば、モダリティが強い相補的関係を示す場合、ゲーティング機構は横断的特徴、そうでなければ非付随的特徴を強調する。
システムの性能をさらに向上するために,各イテレーションにゲーティング機構を導入し,次いで各イテレーションのゲート出力をハイレベルゲーティングすることで,階層的なゲーティング手法についても検討した。
提案手法は、音声と視覚のモダリティ間の弱い相補関係に対処する柔軟性を付加することにより、RCJCAモデルの性能を向上させる。
提案手法の堅牢性を示すために, 挑戦的なAffwild2データセット上で大規模な実験を行った。
音声と視覚のモーダル間の弱い相補関係を効果的に処理することにより、検証セット(検証セット)上でそれぞれ0.561(0.623)と0.620(0.660)の一致相関係数(CCC)を達成する。
関連論文リスト
- $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシー=シュワルツの発散と相互情報を統合することで、分布型視覚言語アライメントを実現する新しいフレームワークを提案する。
提案フレームワークでは,CSの分散と相互情報は多モーダルアライメントにおいて相補的な役割を担い,各モーダルのグローバル分布情報とペアのセマンティック関係の両方をキャプチャする。
テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文 参考訳(メタデータ) (2025-02-24T10:29:15Z) - Semantic Communication for Cooperative Perception using HARQ [51.148203799109304]
我々は重要セマンティック情報を抽出するために重要地図を活用し、協調的な知覚セマンティックコミュニケーションフレームワークを導入する。
周波数分割多重化(OFDM)とチャネル推定と等化戦略を併用して,時間変化によるマルチパスフェーディングによる課題に対処する。
我々は,ハイブリッド自動繰り返し要求(HARQ)の精神において,我々の意味コミュニケーションフレームワークと統合された新しい意味エラー検出手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T08:53:26Z) - Inconsistency-Aware Cross-Attention for Audio-Visual Fusion in Dimensional Emotion Recognition [3.1967132086545127]
モーダル性にまたがる相補的関係の活用は、近年、マルチモーダル感情認識において多くの注目を集めている。
Inconsistency-Aware Cross-Attention (IACA) を提案する。
Aff-Wild2データセットを用いて,提案モデルの堅牢性を示す実験を行った。
論文 参考訳(メタデータ) (2024-05-21T15:11:35Z) - Cross-Attention is Not Always Needed: Dynamic Cross-Attention for Audio-Visual Dimensional Emotion Recognition [3.5803801804085347]
本研究では,動的クロスアテンション(DCA)を提案する。
本稿では,RECOLAとAff-Wild2データセットに対する提案手法の性能評価を行う。
論文 参考訳(メタデータ) (2024-03-28T16:38:04Z) - Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition [3.5803801804085347]
本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を導入し,音声,視覚,テキストの両モード間の相互関係を次元的感情認識のために捉える。
特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づく注目重みの計算を行う。
Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。
論文 参考訳(メタデータ) (2024-03-20T15:08:43Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Dynamic Cross Attention for Audio-Visual Person Verification [3.5803801804085347]
本研究では,動的クロスアテンション(DCA)モデルを提案する。
特に、コンディショナルゲーティング層は、クロスアテンション機構の寄与を評価するように設計されている。
Voxceleb1データセットで大規模な実験を行い、提案モデルの堅牢性を実証した。
論文 参考訳(メタデータ) (2024-03-07T17:07:51Z) - Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。
MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文 参考訳(メタデータ) (2023-03-23T15:42:05Z) - Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space
Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。
ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。
以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文 参考訳(メタデータ) (2022-09-19T15:01:55Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。