論文の概要: Multi-modal Emotion Estimation for in-the-wild Videos
- arxiv url: http://arxiv.org/abs/2203.13032v1
- Date: Thu, 24 Mar 2022 12:23:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 18:43:33.610637
- Title: Multi-modal Emotion Estimation for in-the-wild Videos
- Title(参考訳): ウィジェット内映像のマルチモーダル感情推定
- Authors: Liyu Meng, Yuchen Liu, Xiaolong Liu, Zhaopei Huang, Wenqiang Jiang,
Tenggan Zhang, Yuanyuan Deng, Ruichen Li, Yannan Wu, Jinming Zhao, Fengsheng
Qiao, Qin Jin and Chuanhe Liu
- Abstract要約: 本稿では,第3回ABAW(Affective Behavior Analysis in-the-wild)コンペティションにおけるValence-Arousal Estimation Challengeについて紹介する。
本手法では,マルチモーダル情報,すなわち視覚情報と音声情報を利用し,時間エンコーダを用いて映像の時間コンテキストをモデル化する。
- 参考スコア(独自算出の注目度): 45.08050615458274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we briefly introduce our submission to the Valence-Arousal
Estimation Challenge of the 3rd Affective Behavior Analysis in-the-wild (ABAW)
competition. Our method utilizes the multi-modal information, i.e., the visual
and audio information, and employs a temporal encoder to model the temporal
context in the videos. Besides, a smooth processor is applied to get more
reasonable predictions, and a model ensemble strategy is used to improve the
performance of our proposed method. The experiment results show that our method
achieves 65.55% ccc for valence and 70.88% ccc for arousal on the validation
set of the Aff-Wild2 dataset, which prove the effectiveness of our proposed
method.
- Abstract(参考訳): 本稿では,第3回愛着行動分析コンペティション(abaw)コンペティションにおけるヴァレンス・覚醒推定チャレンジ(valence-arousal estimation challenge)について紹介する。
本手法では,マルチモーダル情報,すなわち視覚情報と音声情報を用いて,映像の時間的文脈をモデル化する時間エンコーダを用いる。
さらに,より合理的な予測を行うためにスムースプロセッサが適用され,提案手法の性能向上のためにモデルアンサンブル戦略が用いられる。
実験の結果,提案手法の有効性を実証するaf-wild2データセットの検証セット上で,valenceは65.55%ccc,arousalは70.88%cccであった。
関連論文リスト
- Multimodal Fusion Method with Spatiotemporal Sequences and Relationship Learning for Valence-Arousal Estimation [9.93719767430551]
本稿では,ABA6コンペティションにおけるVA(Valence-Arousal)推定タスクに対するアプローチを提案する。
映像フレームと音声セグメントを前処理して視覚的・音声的特徴を抽出する包括的モデルを考案した。
我々は、Transformerエンコーダ構造を用いて長距離依存を学習し、モデルの性能と一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-03-19T04:25:54Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - Spatial-temporal Transformer for Affective Behavior Analysis [11.10521339384583]
空間的特徴と時間的特徴の両方の分布を学習するために,マルチヘッド注意フレームワークを用いたトランスフォーマーを提案する。
その結果、Aff-Wild2データセットに基づく提案モデルの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-03-19T04:34:17Z) - Multi-modal Expression Recognition with Ensemble Method [9.880739481276835]
複数の事前訓練されたモデルによって抽出されたマルチモーダル特徴の組み合わせは、より効果的な感情情報を取得するために適用される。
このような視覚的・音声的モーダルな特徴の組み合わせに対して,2つの時間的エンコーダを用いて時間的文脈情報を探索する。
本システムでは,検証セットの平均F1スコアが0.45774である。
論文 参考訳(メタデータ) (2023-03-17T15:03:58Z) - A Multi-modal and Multi-task Learning Method for Action Unit and
Expression Recognition [18.478011167414223]
視覚情報と音声情報の両方を用いたマルチモーダル・マルチタスク学習手法を提案する。
AUスコアは0.712、式スコアは0.477となる。
論文 参考訳(メタデータ) (2021-07-09T03:28:17Z) - Technical Report for Valence-Arousal Estimation on Affwild2 Dataset [0.0]
abaw fg-2020 コンペティションにおけるvalence-arousal estimation challenge に取り組む。
マイクロモーションとマクロモーションの情報を得るために、MIMAMO Net quoteeng 2020mimamoモデルを使用します。
論文 参考訳(メタデータ) (2021-05-04T14:00:07Z) - Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。
本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。
また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文 参考訳(メタデータ) (2019-06-15T10:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。