論文の概要: A Multi-modal and Multi-task Learning Method for Action Unit and
Expression Recognition
- arxiv url: http://arxiv.org/abs/2107.04187v1
- Date: Fri, 9 Jul 2021 03:28:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 02:16:08.916385
- Title: A Multi-modal and Multi-task Learning Method for Action Unit and
Expression Recognition
- Title(参考訳): 動作単位と表現認識のためのマルチモーダル・マルチタスク学習法
- Authors: Yue Jin, Tianqing Zheng, Chao Gao, Guoqiang Xu
- Abstract要約: 視覚情報と音声情報の両方を用いたマルチモーダル・マルチタスク学習手法を提案する。
AUスコアは0.712、式スコアは0.477となる。
- 参考スコア(独自算出の注目度): 18.478011167414223
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Analyzing human affect is vital for human-computer interaction systems. Most
methods are developed in restricted scenarios which are not practical for
in-the-wild settings. The Affective Behavior Analysis in-the-wild (ABAW) 2021
Contest provides a benchmark for this in-the-wild problem. In this paper, we
introduce a multi-modal and multi-task learning method by using both visual and
audio information. We use both AU and expression annotations to train the model
and apply a sequence model to further extract associations between video
frames. We achieve an AU score of 0.712 and an expression score of 0.477 on the
validation set. These results demonstrate the effectiveness of our approach in
improving model performance.
- Abstract(参考訳): 人間の感情分析は、人間とコンピュータの相互作用システムにとって不可欠である。
ほとんどのメソッドは、Wildの設定に実用的でない制限されたシナリオで開発されます。
ABAW (Affective Behavior Analysis in-the-wild) 2021 コンテストは、この進行中の問題に対するベンチマークを提供する。
本稿では,視覚情報と音声情報の両方を用いたマルチモーダル・マルチタスク学習手法を提案する。
auアノテーションと式アノテーションの両方を使用してモデルをトレーニングし、ビデオフレーム間の関連をさらに抽出するためにシーケンスモデルを適用します。
検証セット上でauスコア0.712、式スコア0.477を達成する。
これらの結果は, モデル性能向上における我々のアプローチの有効性を示す。
関連論文リスト
- Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Multi-modal Facial Affective Analysis based on Masked Autoencoder [7.17338843593134]
CVPR 2023: ABAW5 competition: Affective Behavior Analysis in-the-wild について紹介する。
まず,大規模顔画像データセット上で事前学習したMasked Autoencoder(MAE)モデルの視覚情報を利用する。
ABAW5では,平均F1スコアが55.49%,EXPRトラックが41.21%であった。
論文 参考訳(メタデータ) (2023-03-20T03:58:03Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Multi-model Ensemble Learning Method for Human Expression Recognition [31.76775306959038]
本研究では,大量の実生活データを収集するアンサンブル学習法に基づく手法を提案する。
ABAW2022 ChallengeのAffWild2データセット上で多くの実験を行い、本ソリューションの有効性を実証した。
論文 参考訳(メタデータ) (2022-03-28T03:15:06Z) - Multi-modal Multi-label Facial Action Unit Detection with Transformer [7.30287060715476]
本稿では,第3回ABAW(Affective Behavior Analysis)2022コンペティションについて述べる。
映像中の顔行動単位(FAU)を検出するためのトランスフォーマーモデルを提案した。
論文 参考訳(メタデータ) (2022-03-24T18:59:31Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Multi-modal Affect Analysis using standardized data within subjects in
the Wild [8.05417723395965]
本稿では,表情(EXP)に着目した感情認識手法を提案する。
提案手法は,評価精度とロバスト性を効果的に向上する。
論文 参考訳(メタデータ) (2021-07-07T04:18:28Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - A Multi-term and Multi-task Analyzing Framework for Affective Analysis
in-the-wild [0.2216657815393579]
本稿では,ABAW(Affective Behavior Analysis in-the-Wild)2020 Contestに提出された感情認識手法を紹介する。
感情行動には独自の時間枠を持つ観測可能な多くの特徴があるため、複数の最適化された時間窓を導入しました。
時間ごとの感情認識モデルを作成し、これらのモデルをまとめました。
論文 参考訳(メタデータ) (2020-09-29T09:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。