論文の概要: Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach
- arxiv url: http://arxiv.org/abs/2603.13056v1
- Date: Fri, 13 Mar 2026 15:06:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.146016
- Title: Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach
- Title(参考訳): 第10回ABAWコンペティションにおけるチームRAS:マルチモーダル・バレンスと覚醒的推定アプローチ
- Authors: Elena Ryumina, Maxim Markitantov, Alexandr Axyonov, Dmitry Ryumin, Mikhail Dolgushin, Denis Dresvyanskiy, Alexey Karpov,
- Abstract要約: 本手法は,顔,行動,音声の3つの相補的なモードを組み合わせる。
実験により,提案したマルチモーダル核融合戦略は, Aff-Wild2 開発セット上で0.658 の一致相関係数(CCC)を達成することを示した。
- 参考スコア(独自算出の注目度): 53.64487844936037
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous emotion recognition in terms of valence and arousal under in-the-wild (ITW) conditions remains a challenging problem due to large variations in appearance, head pose, illumination, occlusions, and subject-specific patterns of affective expression. We present a multimodal method for valence-arousal estimation ITW. Our method combines three complementary modalities: face, behavior, and audio. The face modality relies on GRADA-based frame-level embeddings and Transformer-based temporal regression. We use Qwen3-VL-4B-Instruct to extract behavior-relevant information from video segments, while Mamba is used to model temporal dynamics across segments. The audio modality relies on WavLM-Large with attention-statistics pooling and includes a cross-modal filtering stage to reduce the influence of unreliable or non-speech segments. To fuse modalities, we explore two fusion strategies: a Directed Cross-Modal Mixture-of-Experts Fusion Strategy that learns interactions between modalities with adaptive weighting, and a Reliability-Aware Audio-Visual Fusion Strategy that combines visual features at the frame-level while using audio as complementary context. The results are reported on the Aff-Wild2 dataset following the 10th Affective Behavior Analysis in-the-Wild (ABAW) challenge protocol. Experiments demonstrate that the proposed multimodal fusion strategy achieves a Concordance Correlation Coefficient (CCC) of 0.658 on the Aff-Wild2 development set.
- Abstract(参考訳): IW(In-the-Wild)条件下での原子価と覚醒の連続的感情認識は、外見、ポーズ、照明、オクルージョン、主観固有の感情表現パターンの多様さにより、依然として困難な問題である。
原子価-陽極推定ITWのためのマルチモーダル手法を提案する。
本手法は,顔,行動,音声の3つの相補的なモードを組み合わせる。
顔のモダリティはGRADAベースのフレームレベルの埋め込みとTransformerベースの時間回帰に依存している。
我々はQwen3-VL-4B-Instructを使ってビデオセグメントから行動関連情報を抽出し、Mambaはセグメント間の時間的ダイナミクスをモデル化する。
オーディオモダリティは、注目統計プールを備えたWavLM-Largeに依存しており、信頼できないセグメントや非音声セグメントの影響を低減するためのクロスモーダルフィルタリングステージを含んでいる。
適応重み付けによるモダリティ間の相互作用を学習するディレクテッド・クロスモーダル・ミックス・オブ・エキスパート・フュージョン・ストラテジー(Directed Cross-Modal Mixture-of-Experts Fusion Strategy)と、補的文脈として音声を使用しながらフレームレベルでの視覚的特徴を組み合わせた信頼性・アウェア・オーディオ・ビジュアル・フュージョン・ストラテジー(Reliability-Aware Audio-Visual Fusion Strategy)である。
その結果,第10回目のAffective Behavior Analysis in-the-Wild (ABAW)チャレンジプロトコルに従って,Aff-Wild2データセットに報告された。
実験により,提案したマルチモーダル核融合戦略は, Aff-Wild2 開発セット上で0.658 の一致相関係数(CCC)を達成することを示した。
関連論文リスト
- A Two-Stage Dual-Modality Model for Facial Emotional Expression Recognition [5.014305646574725]
本稿では,第10回ABAWワークショップおよびコンペティションにおけるEXPR認識課題について論じる。
拘束されていないビデオから8つの顔の感情表現をフレームレベルで分類する必要がある。
これらの問題に対処する2段階のデュアルモーダル(音響・視覚)モデルを提案する。
論文 参考訳(メタデータ) (2026-03-12T17:45:12Z) - Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout [20.96260280449496]
視覚と音声の表現を動的に融合するマルチモーダルフレームワークを提案する。
本手法では、安全なクロスアテンション機構とモダリティのドロップアウト戦略を備えたデュアルブランチトランスフォーマーアーキテクチャを用いる。
この設計により、視覚的手がかりがない場合、ネットワークは音声による予測に頼ることができる。
論文 参考訳(メタデータ) (2026-03-09T07:13:20Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Interactive Multimodal Fusion with Temporal Modeling [11.506800500772734]
本手法では,マルチモーダル・フレームワークを通じて視覚情報と音声情報を統合する。
ビジュアルブランチは、トレーニング済みのResNetモデルを使用して、顔画像から特徴を抽出する。
オーディオブランチは、トレーニング済みのVGGモデルを使用して、音声信号からVGGishとLogMelの特徴を抽出する。
提案手法は,Aff-Wild2データセット上での競合性能を実現し,VA推定に有効なマルチモーダル融合を実証する。
論文 参考訳(メタデータ) (2025-03-13T16:31:56Z) - Dynamic Weighted Combiner for Mixed-Modal Image Retrieval [8.683144453481328]
フレキシブル検索パラダイムとしてのMixed-Modal Image Retrieval (MMIR) が注目されている。
以前のアプローチは常に2つの重要な要因のため、限られたパフォーマンスを達成する。
以上の課題に対処するための動的重み付け結合器(DWC)を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:36:45Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Modality-Aware Contrastive Instance Learning with Self-Distillation for
Weakly-Supervised Audio-Visual Violence Detection [14.779452690026144]
弱教師付き音声視覚学習のための自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。
我々のフレームワークは、大規模なXD-Violenceデータセットにおいて、より少ない複雑さで従来の手法より優れています。
論文 参考訳(メタデータ) (2022-07-12T12:42:21Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。