論文の概要: Team RAS in 9th ABAW Competition: Multimodal Compound Expression Recognition Approach
- arxiv url: http://arxiv.org/abs/2507.02205v2
- Date: Fri, 04 Jul 2025 14:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 13:42:26.911492
- Title: Team RAS in 9th ABAW Competition: Multimodal Compound Expression Recognition Approach
- Title(参考訳): 第9回ABAWコンペティションにおけるチームRAS:マルチモーダル複合表現認識アプローチ
- Authors: Elena Ryumina, Maxim Markitantov, Alexandr Axyonov, Dmitry Ryumin, Mikhail Dolgushin, Alexey Karpov,
- Abstract要約: 複合表現認識(CER)は、基本的な感情の組み合わせによって形成される複雑な感情状態を検出することを目的としている。
6つの不均一なモーダルを1つのパイプラインに結合する新しいゼロショットマルチモーダルアプローチを提案する。
提案手法では、AffWild2ではF1スコアが46.95%、AFEWでは49.02%、ゼロショットテストでC-EXPR-DBでは34.85%である。
- 参考スコア(独自算出の注目度): 44.40745123728199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compound Expression Recognition (CER), a subfield of affective computing, aims to detect complex emotional states formed by combinations of basic emotions. In this work, we present a novel zero-shot multimodal approach for CER that combines six heterogeneous modalities into a single pipeline: static and dynamic facial expressions, scene and label matching, scene context, audio, and text. Unlike previous approaches relying on task-specific training data, our approach uses zero-shot components, including Contrastive Language-Image Pretraining (CLIP)-based label matching and Qwen-VL for semantic scene understanding. We further introduce a Multi-Head Probability Fusion (MHPF) module that dynamically weights modality-specific predictions, followed by a Compound Expressions (CE) transformation module that uses Pair-Wise Probability Aggregation (PPA) and Pair-Wise Feature Similarity Aggregation (PFSA) methods to produce interpretable compound emotion outputs. Evaluated under multi-corpus training, the proposed approach shows F1 scores of 46.95% on AffWild2, 49.02% on Acted Facial Expressions in The Wild (AFEW), and 34.85% on C-EXPR-DB via zero-shot testing, which is comparable to the results of supervised approaches trained on target data. This demonstrates the effectiveness of the proposed approach for capturing CE without domain adaptation. The source code is publicly available.
- Abstract(参考訳): 感情コンピューティングのサブフィールドである複合表現認識(CER)は、基本的な感情の組み合わせによって形成される複雑な感情状態を検出することを目的としている。
本研究では,静的・動的表情,シーンとラベルのマッチング,シーンコンテキスト,音声,テキストの6つの不均一なモーダルを1つのパイプラインに統合する,新たなゼロショットマルチモーダルアプローチを提案する。
タスク固有のトレーニングデータに依存する従来のアプローチとは異なり,提案手法では,CLIP(Contrastive Language- Image Pretraining)ベースのラベルマッチングや,セマンティックシーン理解のためのQwen-VLなど,ゼロショットコンポーネントを使用している。
さらに,MHPF (Multi-Head Probability Fusion) モジュールを動的に重み付けし,Pair-Wise Probability Aggregation (PPA) とPair-Wise Feature similarity Aggregation (PFSA) を用いて複合感情出力を生成する複合表現 (CE) 変換モジュールを導入する。
AffWild2は46.95%、AFEWは49.02%、ゼロショットテストによるC-EXPR-DBは34.85%である。
これは、CEをドメイン適応なしで取得するための提案手法の有効性を示す。
ソースコードは公開されている。
関連論文リスト
- 7ABAW-Compound Expression Recognition via Curriculum Learning [25.64304473149263]
本稿では,1つの表現タスクでモデルをトレーニングするカリキュラムベースのフレームワークを提案する。
本手法は,Fスコア0.6063の競合トラックにおいて,テキストfbbの最高性能を実現する。
論文 参考訳(メタデータ) (2025-03-11T01:53:34Z) - Compound Expression Recognition via Multi Model Ensemble for the ABAW7 Challenge [6.26485278174662]
複合表現認識(CER)は、効果的な対人相互作用に不可欠である。
本稿では,この複雑さに対処するアンサンブル学習に基づくソリューションを提案する。
提案手法はRAF-DBデータセット上で高い精度を示し,ゼロショット学習によりC-EXPR-DBの一部の表現を認識できる。
論文 参考訳(メタデータ) (2024-07-17T01:59:34Z) - Audio-Visual Compound Expression Recognition Method based on Late Modality Fusion and Rule-based Decision [9.436107335675473]
本稿では,第6回ABAWコンペティションの複合表現認識チャレンジにおけるSUNチームの結果について述べる。
本稿では,複合表現認識のための新しい音声視覚手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T12:45:52Z) - Compound Expression Recognition via Multi Model Ensemble [8.529105068848828]
複合表現認識は対人相互作用において重要な役割を果たす。
本稿では,複合表現認識のためのアンサンブル学習手法に基づく解を提案する。
提案手法はRAF-DBの精度が高く,C-EXPR-DBの一部部分でゼロショットで表現を認識できる。
論文 参考訳(メタデータ) (2024-03-19T09:30:56Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。