論文の概要: Affective Behaviour Analysis via Progressive Learning
- arxiv url: http://arxiv.org/abs/2407.16945v3
- Date: Thu, 13 Mar 2025 03:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:49:53.647366
- Title: Affective Behaviour Analysis via Progressive Learning
- Title(参考訳): プログレッシブラーニングによる感情行動分析
- Authors: Chen Liu, Wei Zhang, Feng Qiu, Lincheng Li, Xin Yu,
- Abstract要約: 第7回Affective Behavior Analysis in-the-wild (ABAW)コンペティションでは、s-Aff-Wild2データベースに基づいたマルチタスク学習チャレンジが開催されている。
参加者は、Valence-Arousal Estimation、Expression Recognition、AU検出を同時に実現するフレームワークを開発する必要がある。
本稿では,各タスクの顔の感情的特徴に焦点をあてる,プログレッシブなマルチタスク学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.455163723584427
- License:
- Abstract: Affective Behavior Analysis aims to develop emotionally intelligent technology that can recognize and respond to human emotions. To advance this field, the 7th Affective Behavior Analysis in-the-wild (ABAW) competition holds the Multi-Task Learning Challenge based on the s-Aff-Wild2 database. The participants are required to develop a framework that achieves Valence-Arousal Estimation, Expression Recognition, and AU detection simultaneously. To achieve this goal, we propose a progressive multi-task learning framework that fully leverages the distinct focuses of each task on facial emotion features. Specifically, our method design can be summarized into three main aspects: 1) Separate Training and Joint Training: We first train each task model separately and then perform joint training based on the pre-trained models, fully utilizing the feature focus aspects of each task to improve the overall framework performance. 2) Feature Fusion and Temporal Modeling:} We investigate effective strategies for fusing features extracted from each task-specific model and incorporate temporal feature modeling during the joint training phase, which further refines the performance of each task. 3) Joint Training Strategy Optimization: To identify the optimal joint training approach, we conduct a comprehensive strategy search, experimenting with various task combinations and training methodologies to further elevate the overall performance of each task. According to the official results, our team achieves first place in the MTL challenge with a total score of 1.5286 (i.e., AU F-score 0.5580, Expression F-score 0.4286, CCC VA score 0.5420). Our code is publicly available at https://github.com/YenanLiu/ABAW7th.
- Abstract(参考訳): 感情行動分析(Affective Behavior Analysis)は、人間の感情を認識し、反応できる感情知的な技術を開発することを目的とする。
この分野を前進させるために、第7回ABAW(Affective Behavior Analysis in-the-wild)コンペティションでは、s-Aff-Wild2データベースに基づいたマルチタスク学習チャレンジが開催されている。
参加者は、Valence-Arousal Estimation、Expression Recognition、AU検出を同時に実現するフレームワークを開発する必要がある。
この目的を達成するために,各タスクが顔の感情的特徴に特化している点を完全に活用する,プログレッシブなマルチタスク学習フレームワークを提案する。
具体的には、メソッド設計を3つの主な側面にまとめることができます。
1)個別のトレーニングと共同トレーニング:まず各タスクモデルを個別にトレーニングし、次に事前訓練されたモデルに基づいて共同トレーニングを行い、各タスクの特徴的側面を十分に活用して、全体的なフレームワークのパフォーマンスを向上させる。
2) 機能融合と時間モデリング:1) 各タスク固有モデルから抽出した特徴を融合させ, 共同訓練期間中に時間的特徴モデリングを取り入れ, タスクの性能をさらに向上させる効果的な戦略について検討する。
3) 協調訓練戦略最適化: 最適な共同訓練手法を特定するため, 総合的な戦略探索を行い, 各種タスクの組み合わせと訓練手法を試行し, それぞれのタスクの総合的性能を高める。
公式結果によると、我々のチームは総得点1.5286(AU F-score 0.5580、Expression F-score 0.4286、CC VA score 0.5420)のMLLチャレンジで1位を獲得した。
私たちのコードはhttps://github.com/YenanLiu/ABAW7th.comで公開されています。
関連論文リスト
- Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - Affective Behaviour Analysis via Integrating Multi-Modal Knowledge [24.74463315135503]
ABAW(Affective Behavior Analysis in-wild)の第6回コンペティションでは、Aff-Wild2、Hum-Vidmimic2、C-EXPR-DBデータセットが使用されている。
本稿では,Valence-Arousal (VA) Estimation, Expression (EXPR) Recognition, Action Unit (AU) Detection, Compound Expression (CE) Recognition, Emotional Mimicry Intensity (EMI) Estimationの5つの競合トラックについて提案する。
論文 参考訳(メタデータ) (2024-03-16T06:26:43Z) - The 6th Affective Behavior Analysis in-the-wild (ABAW) Competition [53.718777420180395]
本稿では,第6回ABAWコンペティションについて述べる。
第6回ABAWコンペティションは、人間の感情や行動を理解する上での現代の課題に対処する。
論文 参考訳(メタデータ) (2024-02-29T16:49:38Z) - Multimodal Visual-Tactile Representation Learning through
Self-Supervised Contrastive Pre-Training [0.850206009406913]
MViTacは、コントラスト学習を利用して視覚と触覚を自己指導的に統合する新しい手法である。
両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
論文 参考訳(メタデータ) (2024-01-22T15:11:57Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Multi-task Cross Attention Network in Facial Behavior Analysis [7.910908058662372]
本研究は, 実環境における感情行動分析におけるマルチタスク学習の課題に対する解決策を提案する。
課題は、アクション単位の検出、表情認識、および原子価-覚醒推定の3つのタスクの組み合わせである。
マルチタスク学習性能向上のためのクロスアテンテートモジュールを提案する。
論文 参考訳(メタデータ) (2022-07-21T04:07:07Z) - Prior Aided Streaming Network for Multi-task Affective Recognitionat the
2nd ABAW2 Competition [9.188777864190204]
我々は第2回ABAW2コンペティション(ABAW2コンペティション)に応募する。
異なる感情表現を扱う際に,マルチタスク・ストリーミング・ネットワークを提案する。
我々は、先行知識として高度な表情埋め込みを活用している。
論文 参考訳(メタデータ) (2021-07-08T09:35:08Z) - A Multi-resolution Approach to Expression Recognition in the Wild [9.118706387430883]
顔認識タスクを解決するためのマルチリゾリューション手法を提案する。
私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。
我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。
論文 参考訳(メタデータ) (2021-03-09T21:21:02Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。