論文の概要: 7ABAW-Compound Expression Recognition via Curriculum Learning
- arxiv url: http://arxiv.org/abs/2503.07969v1
- Date: Tue, 11 Mar 2025 01:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:43:52.567414
- Title: 7ABAW-Compound Expression Recognition via Curriculum Learning
- Title(参考訳): 7ABAW-Compound Expression Recognition by Curriculum Learning
- Authors: Chen Liu, Feng Qiu, Wei Zhang, Lincheng Li, Dadong Wang, Xin Yu,
- Abstract要約: 本稿では,1つの表現タスクでモデルをトレーニングするカリキュラムベースのフレームワークを提案する。
本手法は,Fスコア0.6063の競合トラックにおいて,テキストfbbの最高性能を実現する。
- 参考スコア(独自算出の注目度): 25.64304473149263
- License:
- Abstract: With the advent of deep learning, expression recognition has made significant advancements. However, due to the limited availability of annotated compound expression datasets and the subtle variations of compound expressions, Compound Emotion Recognition (CE) still holds considerable potential for exploration. To advance this task, the 7th Affective Behavior Analysis in-the-wild (ABAW) competition introduces the Compound Expression Challenge based on C-EXPR-DB, a limited dataset without labels. In this paper, we present a curriculum learning-based framework that initially trains the model on single-expression tasks and subsequently incorporates multi-expression data. This design ensures that our model first masters the fundamental features of basic expressions before being exposed to the complexities of compound emotions. Specifically, our designs can be summarized as follows: 1) Single-Expression Pre-training: The model is first trained on datasets containing single expressions to learn the foundational facial features associated with basic emotions. 2) Dynamic Compound Expression Generation: Given the scarcity of annotated compound expression datasets, we employ CutMix and Mixup techniques on the original single-expression images to create hybrid images exhibiting characteristics of multiple basic emotions. 3) Incremental Multi-Expression Integration: After performing well on single-expression tasks, the model is progressively exposed to multi-expression data, allowing the model to adapt to the complexity and variability of compound expressions. The official results indicate that our method achieves the \textbf{best} performance in this competition track with an F-score of 0.6063. Our code is released at https://github.com/YenanLiu/ABAW7th.
- Abstract(参考訳): ディープラーニングの出現により、表現認識は大きな進歩を遂げた。
しかし、注釈付き複合表現データセットの可用性が限られており、複合表現の微妙なバリエーションがあるため、複合感情認識(CE)は探索にかなりの可能性を秘めている。
この課題を進めるために、第7回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションでは、ラベルのない限定データセットであるC-EXPR-DBに基づく複合表現チャレンジが導入されている。
本稿では,最初は単一表現タスクでモデルを訓練し,その後にマルチ表現データを組み込んだカリキュラム学習ベースのフレームワークを提案する。
この設計は、複合感情の複雑さに晒される前に、我々のモデルが基本表現の基本的特徴を第一にマスターすることを保証する。
具体的には、以下に概説する。
1) 単表現事前学習: モデルはまず,基本感情に関連する基礎的な顔の特徴を学習するために,単一の表現を含むデータセットに基づいて訓練される。
2) 動的複合表現生成: 注釈付き複合表現データセットの不足を考慮し, 元の単表現画像にカットミクスとミックスアップ技術を用いて, 複数の基本感情の特徴を示すハイブリッド画像を作成する。
3) 増分多表現統合: 単表現タスクをうまく実行した後、モデルは多表現データに徐々に露出し、複合表現の複雑さと可変性に適応する。
以上の結果から,Fスコア0.6063の競合トラック上でのtextbf{best}性能が得られた。
私たちのコードはhttps://github.com/YenanLiu/ABAW7th.comでリリースされています。
関連論文リスト
- Compound Expression Recognition via Multi Model Ensemble for the ABAW7 Challenge [6.26485278174662]
複合表現認識(CER)は、効果的な対人相互作用に不可欠である。
本稿では,この複雑さに対処するアンサンブル学習に基づくソリューションを提案する。
提案手法はRAF-DBデータセット上で高い精度を示し,ゼロショット学習によりC-EXPR-DBの一部の表現を認識できる。
論文 参考訳(メタデータ) (2024-07-17T01:59:34Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Compound Expression Recognition via Multi Model Ensemble [8.529105068848828]
複合表現認識は対人相互作用において重要な役割を果たす。
本稿では,複合表現認識のためのアンサンブル学習手法に基づく解を提案する。
提案手法はRAF-DBの精度が高く,C-EXPR-DBの一部部分でゼロショットで表現を認識できる。
論文 参考訳(メタデータ) (2024-03-19T09:30:56Z) - Zero-shot Compound Expression Recognition with Visual Language Model at the 6th ABAW Challenge [11.49671335206114]
従来のCNNネットワークと統合された事前学習された視覚言語モデルを活用することで,複合表現の認識のためのゼロショットアプローチを提案する。
本研究では,従来のCNNネットワークと統合された事前学習された視覚言語モデルを活用することで,複合表現認識のためのゼロショットアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-18T03:59:24Z) - Large Language Model as Attributed Training Data Generator: A Tale of
Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。
本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。
属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-28T03:31:31Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - Learn-to-Decompose: Cascaded Decomposition Network for Cross-Domain
Few-Shot Facial Expression Recognition [60.51225419301642]
本稿では,複合表情認識のための新しいカスケード分解ネットワーク(CDNet)を提案する。
基本的な表現データセット上で同様のタスクをトレーニングすることで、CDNetは、目に見えない複合表現を容易に識別できる学習と分解の能力を学ぶ。
論文 参考訳(メタデータ) (2022-07-16T16:10:28Z) - When Facial Expression Recognition Meets Few-Shot Learning: A Joint and
Alternate Learning Framework [60.51225419301642]
実践シナリオにおける人間の感情の多様性に対応するために,感情ガイド型類似ネットワーク(EGS-Net)を提案する。
EGS-Netは2段階の学習フレームワークに基づいた感情ブランチと類似性ブランチで構成されている。
In-the-labとin-the-wildの複合表現データセットの実験結果から,提案手法がいくつかの最先端手法に対して優れていることを示す。
論文 参考訳(メタデータ) (2022-01-18T07:24:12Z) - A Multi-resolution Approach to Expression Recognition in the Wild [9.118706387430883]
顔認識タスクを解決するためのマルチリゾリューション手法を提案する。
私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。
我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。
論文 参考訳(メタデータ) (2021-03-09T21:21:02Z) - Learning to Augment Expressions for Few-shot Fine-grained Facial
Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。
顔の表情は119人から54人まで、200万枚以上の画像が含まれている。
実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。
顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文 参考訳(メタデータ) (2020-01-17T03:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。