論文の概要: Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout
- arxiv url: http://arxiv.org/abs/2603.08034v1
- Date: Mon, 09 Mar 2026 07:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.623204
- Title: Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout
- Title(参考訳): 第10回ABAW表現認識チャレンジへの解決策: 安全なクロスアテンションとモダリティ・ドロップアウトを備えたロバスト・マルチモーダル・フレームワーク
- Authors: Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu,
- Abstract要約: 視覚と音声の表現を動的に融合するマルチモーダルフレームワークを提案する。
本手法では、安全なクロスアテンション機構とモダリティのドロップアウト戦略を備えたデュアルブランチトランスフォーマーアーキテクチャを用いる。
この設計により、視覚的手がかりがない場合、ネットワークは音声による予測に頼ることができる。
- 参考スコア(独自算出の注目度): 20.96260280449496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion recognition in real-world environments is hindered by partial occlusions, missing modalities, and severe class imbalance. To address these issues, particularly for the Affective Behavior Analysis in-the-wild (ABAW) Expression challenge, we propose a multimodal framework that dynamically fuses visual and audio representations. Our approach uses a dual-branch Transformer architecture featuring a safe cross-attention mechanism and a modality dropout strategy. This design allows the network to rely on audio-based predictions when visual cues are absent. To mitigate the long-tail distribution of the Aff-Wild2 dataset, we apply focal loss optimization, combined with a sliding-window soft voting strategy to capture dynamic emotional transitions and reduce frame-level classification jitter. Experiments demonstrate that our framework effectively handles missing modalities and complex spatiotemporal dependencies, achieving an accuracy of 60.79% and an F1-score of 0.5029 on the Aff-Wild2 validation set.
- Abstract(参考訳): 現実世界の環境における感情認識は、部分閉塞、モダリティの欠如、重度の階級不均衡によって妨げられる。
このような問題,特にABAW(Affective Behavior Analysis in-the-wild)表現問題に対処するため,視覚的および音声的表現を動的に融合するマルチモーダルフレームワークを提案する。
本手法では、安全なクロスアテンション機構とモダリティのドロップアウト戦略を備えたデュアルブランチトランスフォーマーアーキテクチャを用いる。
この設計により、視覚的手がかりがない場合、ネットワークは音声による予測に頼ることができる。
Aff-Wild2データセットの長テール分布を緩和するために、焦点損失最適化とスライドウインドウのソフト投票戦略を組み合わせることで、動的な感情遷移を捉え、フレームレベルの分類ジッタを減らす。
Aff-Wild2検証セットの精度は60.79%、F1スコアは0.5029である。
関連論文リスト
- OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Synergistic Prompting for Robust Visual Recognition with Missing Modalities [13.821274074204082]
大規模マルチモーダルモデルは様々な視覚認識タスクにおいて顕著な性能を示した。
欠落や不完全なモダリティ入力の存在は、しばしば大きなパフォーマンス劣化を引き起こす。
モダリティの欠如を伴い、頑健な視覚認識を実現するための新しいSynergistic Promptingフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-10T14:28:12Z) - UGG-ReID: Uncertainty-Guided Graph Model for Multi-Modal Object Re-Identification [26.770271366177603]
マルチモーダルオブジェクトReID(UGG-ReID)に対する不確実性誘導グラフモデルというロバストなアプローチを提案する。
UGG-ReIDは、ノイズ干渉を緩和し、効果的なマルチモーダル融合を促進するように設計されている。
実験結果から,提案手法は全データセットに対して優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2025-07-07T03:41:08Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval [7.439049772394586]
Diffusion Augmented Retrieval (DAR)は、複数の中間表現を生成するフレームワークである。
DARの結果は微調整されたI-TIRモデルと同等だが、チューニングオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - NR-DFERNet: Noise-Robust Network for Dynamic Facial Expression
Recognition [1.8604727699812171]
DFERタスクにおけるノイズフレームの干渉を低減するために、ノイズロスト動的表情認識ネットワーク(NR-DFERNet)を提案する。
具体的には、空間的段階において、より識別的な空間的特徴を学習するために静的特徴に動的特徴を導入する動的静的融合モジュール(DSF)を考案する。
対象の無関係なフレームの影響を抑えるために,時間段階の変換器に新しい動的クラストークン(DCT)を導入する。
論文 参考訳(メタデータ) (2022-06-10T10:17:30Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。