Fugu-MT 論文翻訳(概要): A Two-Stage Dual-Modality Model for Facial Emotional Expression Recognition

論文の概要: A Two-Stage Dual-Modality Model for Facial Emotional Expression Recognition

arxiv url: http://arxiv.org/abs/2603.12221v1
Date: Thu, 12 Mar 2026 17:45:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:26.262722
Title: A Two-Stage Dual-Modality Model for Facial Emotional Expression Recognition
Title（参考訳）: 顔表情認識のための2段階デュアルモーダルモデル
Authors: Jiajun Sun, Zhe Gao,
Abstract要約: 本稿では,第10回ABAWワークショップおよびコンペティションにおけるEXPR認識課題について論じる。拘束されていないビデオから8つの顔の感情表現をフレームレベルで分類する必要がある。これらの問題に対処する2段階のデュアルモーダル(音響・視覚)モデルを提案する。
参考スコア（独自算出の注目度）: 5.014305646574725
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper addresses the expression (EXPR) recognition challenge in the 10th Affective Behavior Analysis in-the-Wild (ABAW) workshop and competition, which requires frame-level classification of eight facial emotional expressions from unconstrained videos. This task is challenging due to inaccurate face localization, large pose and scale variations, motion blur, temporal instability, and other confounding factors across adjacent frames. We propose a two-stage dual-modal (audio-visual) model to address these difficulties. Stage I focuses on robust visual feature extraction with a pretrained DINOv2-based encoder. Specifically, DINOv2 ViT-L/14 is used as the backbone, a padding-aware augmentation (PadAug) strategy is employed for image padding and data preprocessing from raw videos, and a mixture-of-experts (MoE) training head is introduced to enhance classifier diversity. Stage II addresses modality fusion and temporal consistency. For the visual modality, faces are re-cropped from raw videos at multiple scales, and the extracted visual features are averaged to form a robust frame-level representation. Concurrently, frame-aligned Wav2Vec 2.0 audio features are derived from short audio windows to provide complementary acoustic cues. These dual-modal features are integrated via a lightweight gated fusion module, followed by inference-time temporal smoothing. Experiments on the ABAW dataset demonstrate the effectiveness of the proposed method. The two-stage model achieves a Macro-F1 score of 0.5368 on the official validation set and 0.5122 +/- 0.0277 under 5-fold cross-validation, outperforming the official baselines.
Abstract（参考訳）: 本稿では,第10回感情行動分析(ABAW)ワークショップとコンペティションにおけるEXPR(exfective Behavior Analysis in-the-Wild)の認識課題について論じる。この課題は、不正確な顔のローカライゼーション、大きなポーズとスケールのバリエーション、動きのぼやけ、時間的不安定性など、隣接するフレームにまたがる他の要因によって困難である。これらの問題に対処する2段階のデュアルモーダル(音響・視覚)モデルを提案する。ステージ1は、事前訓練されたDINOv2ベースのエンコーダによる堅牢な視覚特徴抽出に焦点を当てている。具体的には、背骨としてDINOv2 ViT-L/14を使用し、生のビデオからのイメージパディングおよびデータ前処理にパディング対応強化(PadAug)戦略を採用し、分類器の多様性を高めるためにMixix-of-experts(MoE)トレーニングヘッドを導入する。 II期はモダリティ融合と時間的整合性に対処する。視覚的モダリティのために、顔は複数のスケールで生のビデオから再収集され、抽出された視覚的特徴は、堅牢なフレームレベル表現を形成するために平均化される。同時に、フレームアラインのWav2Vec 2.0オーディオ機能は短いオーディオウィンドウから派生し、補完的な音響的手がかりを提供する。これらのデュアルモーダル機能は、軽量ゲート融合モジュールを介して統合され、その後、推論時時間スムージングが続く。 ABAWデータセットの実験により,提案手法の有効性が示された。 2段階モデルは公式の検証セットで0.5368のマクロF1スコアを、5倍のクロスバリデーションで0.5122 +/-0.0277を達成し、公式のベースラインを上回っている。

関連論文リスト

Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling [2.8037951156321377]
第10回ABAWチャレンジにおけるExpression (EXPR) 認識タスクのためのマルチモーダル感情認識フレームワークを提案する。表情系列の時間的依存関係をモデル化するために、固定長ビデオウィンドウ上に時間的畳み込みネットワーク(TCN)を用いる。さらに,視覚的特徴と音声的特徴が対称に相互作用し,相互モーダルな文脈化が促進される双方向の相互注意融合モジュールを導入する。
論文参考訳（メタデータ） (2026-03-12T14:20:29Z)
Diff-V2M: A Hierarchical Conditional Diffusion Model with Explicit Rhythmic Modeling for Video-to-Music Generation [26.273309051211204]
Video-to-music (V2M) の生成は、視覚的コンテンツに合わせて音楽を作成することを目的としている。階層的条件拡散モデルに基づく一般的なV2MフレームワークであるDiff-V2Mを提案する。リズムモデリングでは、低分解能メル-スペクトログラム、テンポグラム、オンセット検出機能(ODF)など、いくつかのリズム表現を評価することから始める。
論文参考訳（メタデータ） (2025-11-12T08:02:06Z)
StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。 Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文参考訳（メタデータ） (2025-09-26T05:23:31Z)
KSDiff: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation [4.952724424448834]
KSDiffはKeyframe-Augmented Speech-Aware Dual-Path Diffusionフレームワークである。表現関連と頭置関連の機能をアンタングルにし、自動回帰的キーフレーム設定学習モジュールは最も有能な動きフレームを予測する。 HDTFとVoxCelebの実験では、KSDiffの最先端性能が証明され、唇の同期精度と頭部の自然さが向上した。
論文参考訳（メタデータ） (2025-09-24T13:54:52Z)
DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework [26.661935208583756]
VVT(Virtual try-on)技術は、eコマース広告やエンターテイメントに将来性があるとして、学術的な関心を集めている。本研究では,現実のシナリオにおける適応性を高めるために,多種多様な人間中心データを活用することが可能なDreamVVTを提案する。第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合された多フレーム試行モデルを用いて、高忠実で意味論的に整合した試行画像を合成する。第2段階では、微粒な動きと外観記述とともに骨格図が作成される。
論文参考訳（メタデータ） (2025-08-04T18:27:55Z)
TAViS: Text-bridged Audio-Visual Segmentation with Foundation Models [123.17643568298116]
本稿では,マルチモーダル基盤モデルの知識をテキスト化するための新しいフレームワークTAViSを提案する。これらのモデルを効果的に組み合わせることによって、SAM2とImageBind間の知識伝達の困難さと、監督のためにセグメンテーション損失のみを使用することの不十分さの2つの大きな課題が生じる。提案手法は,シングルソース,マルチソース,セマンティックデータセットにおいて優れた性能を示し,ゼロショット設定で優れる。
論文参考訳（メタデータ） (2025-06-13T03:19:47Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文参考訳（メタデータ） (2023-12-09T03:16:09Z)
Temporal Distinct Representation Learning for Action Recognition [139.93983070642412]
2次元畳み込みニューラルネットワーク (2D CNN) はビデオの特徴付けに用いられる。ビデオの異なるフレームは同じ2D CNNカーネルを共有しており、繰り返し、冗長な情報利用をもたらす可能性がある。本稿では,異なるフレームからの特徴の識別チャネルを段階的にエキサイティングにするためのシーケンシャルチャネルフィルタリング機構を提案し,繰り返し情報抽出を回避する。本手法は,ベンチマーク時相推論データセットを用いて評価し,それぞれ2.4%,1.3%の可視性向上を実現している。
論文参考訳（メタデータ） (2020-07-15T11:30:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。