論文の概要: MIDAS: Mixing Ambiguous Data with Soft Labels for Dynamic Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2503.00202v1
- Date: Fri, 28 Feb 2025 21:39:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:22.551128
- Title: MIDAS: Mixing Ambiguous Data with Soft Labels for Dynamic Facial Expression Recognition
- Title(参考訳): MIDAS:動的表情認識のための曖昧なデータとソフトラベルの混合
- Authors: Ryosuke Kawamura, Hideaki Hayashi, Noriko Takemura, Hajime Nagahara,
- Abstract要約: 動的表情認識(DFER)のためのデータ拡張手法MIDASを提案する。
MIDASでは、ビデオフレームの対とその対応する感情クラスラベルを凸的に組み合わせてトレーニングデータを拡張する。
その結果、MIDASによって強化されたデータに基づいてトレーニングされたモデルは、元のデータセットでトレーニングされた既存の最先端の手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 11.89503569570198
- License:
- Abstract: Dynamic facial expression recognition (DFER) is an important task in the field of computer vision. To apply automatic DFER in practice, it is necessary to accurately recognize ambiguous facial expressions, which often appear in data in the wild. In this paper, we propose MIDAS, a data augmentation method for DFER, which augments ambiguous facial expression data with soft labels consisting of probabilities for multiple emotion classes. In MIDAS, the training data are augmented by convexly combining pairs of video frames and their corresponding emotion class labels, which can also be regarded as an extension of mixup to soft-labeled video data. This simple extension is remarkably effective in DFER with ambiguous facial expression data. To evaluate MIDAS, we conducted experiments on the DFEW dataset. The results demonstrate that the model trained on the data augmented by MIDAS outperforms the existing state-of-the-art method trained on the original dataset.
- Abstract(参考訳): 動的表情認識(DFER)はコンピュータビジョンにおいて重要な課題である。
実際に自動DFERを適用するには、野生のデータにしばしば現れるあいまいな表情を正確に認識する必要がある。
本稿では,DFERのデータ強化手法であるMIDASを提案する。
MIDASでは、ビデオフレームの対とその対応する感情クラスラベルを凸的に組み合わせてトレーニングデータを拡張し、ソフトラベル付きビデオデータへのミックスアップの拡張と見なすことができる。
この単純な拡張は、不明瞭な表情データを持つDFERにおいて著しく効果的である。
MIDASを評価するために,DFEWデータセットの実験を行った。
その結果、MIDASによって強化されたデータに基づいてトレーニングされたモデルは、元のデータセットでトレーニングされた既存の最先端の手法よりも優れていることが示された。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - AffectNet+: A Database for Enhancing Facial Expression Recognition with Soft-Labels [2.644902054473556]
画像に複数の感情をラベル付けするラベル付け手法により、FERデータセットを作成するための新しい手法を提案する。
提案手法の利点は, よりスムーズな決定境界の発見, マルチラベル化の実現, バイアスと不均衡データの緩和などにある。
AffectNetをベースとして,次世代の表情データセットであるAffectNet+を紹介する。
論文 参考訳(メタデータ) (2024-10-29T19:57:10Z) - Static for Dynamic: Towards a Deeper Understanding of Dynamic Facial Expressions Using Static Expression Data [83.48170683672427]
本稿では,DFERの補完リソースとしてSFERデータを統合した統合型デュアルモーダル学習フレームワークを提案する。
S4Dは、共有トランスフォーマー(ViT)エンコーダデコーダアーキテクチャを用いて、顔画像とビデオに対して、デュアルモーダルな自己教師付き事前トレーニングを採用する。
実験により、S4DはDFERをより深く理解し、新しい最先端のパフォーマンスを設定できることが示された。
論文 参考訳(メタデータ) (2024-09-10T01:57:57Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - Exploring Large-scale Unlabeled Faces to Enhance Facial Expression
Recognition [12.677143408225167]
本研究では、ラベルのない顔データを用いて表現認識モデルを効果的に訓練する半教師付き学習フレームワークを提案する。
本手法では,顔認識データを完全に活用するために,信頼度を適応的に調整できる動的しきい値モジュールを用いる。
ABAW5 EXPRタスクでは,オフィシャル検証セットにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2023-03-15T13:43:06Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。