Fugu-MT 論文翻訳(概要): Solution for 10th Competition on Ambivalence/Hesitancy (AH) Video Recognition Challenge using Divergence-Based Multimodal Fusion

論文の概要: Solution for 10th Competition on Ambivalence/Hesitancy (AH) Video Recognition Challenge using Divergence-Based Multimodal Fusion

arxiv url: http://arxiv.org/abs/2603.16939v1
Date: Sun, 15 Mar 2026 15:37:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.277328
Title: Solution for 10th Competition on Ambivalence/Hesitancy (AH) Video Recognition Challenge using Divergence-Based Multimodal Fusion
Title（参考訳）: ダイバージェンスに基づくマルチモーダルフュージョンを用いたAHビデオ認識チャレンジに関する第10回コンペティションの解法
Authors: Aislan Gabriel O. Souza, Agostinho Freire, Leandro Honorato Silva, Igor Lucas B. da Silva, João Vinícius R. de Andrade, Gabriel C. de Albuquerque, Lucas Matheus da S. Oliveira, Mário Stela Guerra, Luciana Machado,
Abstract要約: 第10回ABAWコンペティション(CVPR 2026)におけるA/Hビデオ認識チャレンジへの取り組み本稿では,視覚的,音声的,テキスト的チャネル間の相互競合を明示的に測定する分散型マルチモーダル融合を提案する。提案手法は, 検証テストセットにおいて0.6808のマクロF1を達成し, 課題ベースラインの0.2827を上回った。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address the Ambivalence/Hesitancy (A/H) Video Recognition Challenge at the 10th ABAW Competition (CVPR 2026). We propose a divergence-based multimodal fusion that explicitly measures cross-modal conflict between visual, audio, and textual channels. Visual features are encoded as Action Units (AUs) extracted via Py-Feat, audio via Wav2Vec 2.0, and text via BERT. Each modality is processed by a BiLSTM with attention pooling and projected into a shared embedding space. The fusion module computes pairwise absolute differences between modality embeddings, directly capturing the incongruence that characterizes A/H. On the BAH dataset, our approach achieves a Macro F1 of 0.6808 on the validation test set, outperforming the challenge baseline of 0.2827. Statistical analysis across 1{,}132 videos confirms that temporal variability of AUs is the dominant visual discriminator of A/H.
Abstract（参考訳）: 第10回ABAWコンペティション(CVPR 2026)におけるAmbivalence/Hesitancy (A/H) Video Recognition Challengeについて検討した。本稿では,視覚的,音声的,テキスト的チャネル間の相互競合を明示的に測定する分散型マルチモーダル融合を提案する。ビジュアル機能は、Py-Feat経由で抽出されたアクションユニット(AU)、Wav2Vec 2.0によるオーディオ、BERTによるテキストとしてエンコードされる。各モダリティは、注目プーリングを備えたBiLSTMによって処理され、共有埋め込み空間に投影される。融合モジュールは、A/Hを特徴付ける不整合を直接キャプチャして、モダリティ埋め込み間のペア単位で絶対差を計算する。 BAHデータセットでは,検証テストセットのマクロF1が0.6808であり,0.2827の課題ベースラインを上回っている。 1{,}132ビデオの統計的解析により、AUsの時間的変動がA/Hの視覚的識別の主流であることが示された。

関連論文リスト

Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach [53.64487844936037]
本手法は,顔,行動,音声の3つの相補的なモードを組み合わせる。実験により,提案したマルチモーダル核融合戦略は, Aff-Wild2 開発セット上で0.658 の一致相関係数(CCC)を達成することを示した。
論文参考訳（メタデータ） (2026-03-13T15:06:14Z)
Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach [43.09390014734485]
本稿では,制約のないビデオにおけるアンビバレンス/ヘシタシー認識のためのマルチモーダルアプローチを提案する。提案手法は,シーン,顔,音声,テキストの4つの相補的モダリティを統合する。 BAHコーパスの実験では、全ての単調基底線上でのマルチモーダル核融合の明らかな利得が示されている。
論文参考訳（メタデータ） (2026-03-13T09:50:03Z)
Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition [3.5803801804085347]
本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を導入し,音声,視覚,テキストの両モード間の相互関係を次元的感情認識のために捉える。特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づく注目重みの計算を行う。 Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。
論文参考訳（メタデータ） (2024-03-20T15:08:43Z)
MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文参考訳（メタデータ） (2024-01-07T08:59:32Z)
Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。 HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文参考訳（メタデータ） (2023-05-23T01:24:15Z)
A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文参考訳（メタデータ） (2022-03-28T14:09:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。