論文の概要: Mutilmodal Feature Extraction and Attention-based Fusion for Emotion
Estimation in Videos
- arxiv url: http://arxiv.org/abs/2303.10421v1
- Date: Sat, 18 Mar 2023 14:08:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 19:26:54.409687
- Title: Mutilmodal Feature Extraction and Attention-based Fusion for Emotion
Estimation in Videos
- Title(参考訳): 映像における感情推定のためのmutilmodal feature extraction and attention-based fusion
- Authors: Tao Shu, Xinke Wang, Ruotong Wang, Chuang Chen, Yixin Zhang, Xiao Sun
- Abstract要約: ABAW(Affective Behavior Analysis in the-wild)に関するCVPR 2023コンペティションについて紹介する。
我々は、音声、ポーズ、画像など、競合データセットから異なる長さのビデオから抽出したマルチモーダル特徴を利用した。
本システムでは,検証データセット上での0.361の性能を実現する。
- 参考スコア(独自算出の注目度): 16.28109151595872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The continuous improvement of human-computer interaction technology makes it
possible to compute emotions. In this paper, we introduce our submission to the
CVPR 2023 Competition on Affective Behavior Analysis in-the-wild (ABAW).
Sentiment analysis in human-computer interaction should, as far as possible
Start with multiple dimensions, fill in the single imperfect emotion channel,
and finally determine the emotion tendency by fitting multiple results.
Therefore, We exploited multimodal features extracted from video of different
lengths from the competition dataset, including audio, pose and images.
Well-informed emotion representations drive us to propose a Attention-based
multimodal framework for emotion estimation. Our system achieves the
performance of 0.361 on the validation dataset. The code is available at
[https://github.com/xkwangcn/ABAW-5th-RT-IAI].
- Abstract(参考訳): 人間のコンピュータインタラクション技術の継続的な改善により、感情を計算することができる。
本稿では, CVPR 2023 Competition on Affective Behavior Analysis in-wild (ABAW) について紹介する。
人間のコンピュータインタラクションにおける感覚分析は、可能な限り複数の次元から開始し、単一の不完全な感情チャネルを埋め、最終的に複数の結果に適合して感情の傾向を決定するべきである。
そこで我々は,音声,ポーズ,画像など,競合データセットから異なる長さのビデオから抽出したマルチモーダル特徴を利用した。
よく表現された感情表現は、感情推定のための注意に基づくマルチモーダルフレームワークを提案する。
本システムは検証データセットにおける0.361の性能を達成する。
コードは[https://github.com/xkwangcn/ABAW-5th-RT-IAI]で入手できる。
関連論文リスト
- Multimodal Group Emotion Recognition In-the-wild Using Privacy-Compliant
Features [0.0]
グループレベルの感情認識は、社会ロボティクス、会話エージェント、e-coaching、学習分析など、多くの分野で有用である。
本稿では,EmotiW Challenge 2023の中で,プライバシに適合したグループレベルの感情認識について検討する。
論文 参考訳(メタデータ) (2023-12-06T08:58:11Z) - Computer Vision Estimation of Emotion Reaction Intensity in the Wild [1.5481864635049696]
本稿では,新たに導入された感情反応強度(ERI)推定課題について述べる。
視覚領域で訓練された4つのディープニューラルネットワークと、感情反応強度を予測するために視覚的特徴と音声的特徴の両方で訓練されたマルチモーダルモデルを開発した。
論文 参考訳(メタデータ) (2023-03-19T19:09:41Z) - FAF: A novel multimodal emotion recognition approach integrating face,
body and text [13.485538135494153]
我々は、感情認識作業を容易にするために、大規模マルチモーダル感情データセット「HED」を構築した。
認識の精度を高めるため,重要な感情情報の探索に「特徴アフター・フィーチャー」フレームワークが用いられた。
我々は、"HED"データセットの評価に様々なベンチマークを使用し、その性能を本手法と比較した。
論文 参考訳(メタデータ) (2022-11-20T14:43:36Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Affect2MM: Affective Analysis of Multimedia Content Using Emotion
Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。
私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文 参考訳(メタデータ) (2021-03-11T09:07:25Z) - Exploring Emotion Features and Fusion Strategies for Audio-Video Emotion
Recognition [62.48806555665122]
EmotiW 2019では、感情の特徴と、音声と視覚のモダリティのための機能融合戦略を主に検討している。
慎重な評価により、AFEW検証セットで65.5%、テストセットで62.48%、チャレンジで3位を獲得します。
論文 参考訳(メタデータ) (2020-12-27T10:50:24Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z) - Temporal aggregation of audio-visual modalities for emotion recognition [0.5352699766206808]
本研究では,時間的オフセットの異なる時間的オフセットと時間的ウィンドウからの音声・視覚的モダリティを組み合わせた感情認識のためのマルチモーダル融合手法を提案する。
提案手法は,文献と人間の精度評価から,他の手法よりも優れている。
論文 参考訳(メタデータ) (2020-07-08T18:44:15Z) - Context Based Emotion Recognition using EMOTIC Dataset [22.631542327834595]
EMOTIC(エモティック)は, 感情に注意を喚起された人々のイメージのデータセットである。
EMOTICデータセットを使用して、感情認識のためのさまざまなCNNモデルをトレーニングする。
その結果,情緒状態を自動的に認識するためにシーンコンテキストが重要な情報を提供することを示す。
論文 参考訳(メタデータ) (2020-03-30T12:38:50Z) - EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's
Principle [71.47160118286226]
EmotiConは、ビデオや画像から知覚された人間の感情認識をコンテキスト認識する学習アルゴリズムである。
心理学からフレーゲの文脈原理に動機づけられた我々のアプローチは、感情認識のための文脈の3つの解釈を組み合わせたものである。
平均精度 (AP) スコアは26クラスで35.48であり, 従来の手法よりも7-8の改善が見られた。
論文 参考訳(メタデータ) (2020-03-14T19:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。