論文の概要: EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's
Principle
- arxiv url: http://arxiv.org/abs/2003.06692v1
- Date: Sat, 14 Mar 2020 19:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 20:38:24.105204
- Title: EmotiCon: Context-Aware Multimodal Emotion Recognition using Frege's
Principle
- Title(参考訳): EmotiCon:Fregeの原理を用いたコンテキスト対応マルチモーダル感情認識
- Authors: Trisha Mittal, Pooja Guhan, Uttaran Bhattacharya, Rohan Chandra,
Aniket Bera and Dinesh Manocha
- Abstract要約: EmotiConは、ビデオや画像から知覚された人間の感情認識をコンテキスト認識する学習アルゴリズムである。
心理学からフレーゲの文脈原理に動機づけられた我々のアプローチは、感情認識のための文脈の3つの解釈を組み合わせたものである。
平均精度 (AP) スコアは26クラスで35.48であり, 従来の手法よりも7-8の改善が見られた。
- 参考スコア(独自算出の注目度): 71.47160118286226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present EmotiCon, a learning-based algorithm for context-aware perceived
human emotion recognition from videos and images. Motivated by Frege's Context
Principle from psychology, our approach combines three interpretations of
context for emotion recognition. Our first interpretation is based on using
multiple modalities(e.g. faces and gaits) for emotion recognition. For the
second interpretation, we gather semantic context from the input image and use
a self-attention-based CNN to encode this information. Finally, we use depth
maps to model the third interpretation related to socio-dynamic interactions
and proximity among agents. We demonstrate the efficiency of our network
through experiments on EMOTIC, a benchmark dataset. We report an Average
Precision (AP) score of 35.48 across 26 classes, which is an improvement of 7-8
over prior methods. We also introduce a new dataset, GroupWalk, which is a
collection of videos captured in multiple real-world settings of people
walking. We report an AP of 65.83 across 4 categories on GroupWalk, which is
also an improvement over prior methods.
- Abstract(参考訳): EmotiConは、ビデオや画像からの人間の感情認識をコンテキスト認識する学習アルゴリズムである。
心理学におけるフレーゲの文脈原理に動機づけられ,感情認識のための文脈の3つの解釈を組み合わせる。
私たちの最初の解釈は、感情認識に複数のモダリティ(顔や歩行など)を使うことに基づいている。
第2の解釈では,入力画像から意味コンテキストを収集し,自己注意に基づくCNNを用いて情報を符号化する。
最後に, 深層マップを用いて, エージェント間の社会-力学的相互作用と近接関係に関する第3の解釈をモデル化する。
ベンチマークデータセットであるEMOTICの実験を通して,ネットワークの効率を実証する。
平均精度 (AP) スコアは26クラスで35.48であり, 従来の手法よりも7-8の改善が見られた。
また、歩く人の複数の現実世界設定で撮影されたビデオのコレクションである、新しいデータセット、GroupWalkも導入しました。
本報告では,GroupWalkの4つのカテゴリにまたがる65.83のAPについて報告する。
関連論文リスト
- VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - GiMeFive: Towards Interpretable Facial Emotion Classification [1.1468563069298348]
深層畳み込みニューラルネットワークは、顔の感情をうまく認識することが示されている。
本稿では,階層アクティベーションと勾配重み付きクラスマッピングを用いたGiMeFiveモデルを提案する。
実験結果から,本モデルでは従来の手法よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2024-02-24T00:37:37Z) - Borrowing Human Senses: Comment-Aware Self-Training for Social Media
Multimodal Classification [5.960550152906609]
視覚的および言語的類似性を共同で活用することで,ユーザコメントからヒントを抽出する。
分類タスクは教師-学生のフレームワークにおける自己学習を通じて探索され、通常はラベル付きデータスケールに動機づけられる。
その結果,提案手法は従来の最先端モデルの性能をさらに向上させることが示された。
論文 参考訳(メタデータ) (2023-03-27T08:59:55Z) - Mutilmodal Feature Extraction and Attention-based Fusion for Emotion
Estimation in Videos [16.28109151595872]
ABAW(Affective Behavior Analysis in the-wild)に関するCVPR 2023コンペティションについて紹介する。
我々は、音声、ポーズ、画像など、競合データセットから異なる長さのビデオから抽出したマルチモーダル特徴を利用した。
本システムでは,検証データセット上での0.361の性能を実現する。
論文 参考訳(メタデータ) (2023-03-18T14:08:06Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - Affect2MM: Affective Analysis of Multimedia Content Using Emotion
Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。
私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文 参考訳(メタデータ) (2021-03-11T09:07:25Z) - Context Based Emotion Recognition using EMOTIC Dataset [22.631542327834595]
EMOTIC(エモティック)は, 感情に注意を喚起された人々のイメージのデータセットである。
EMOTICデータセットを使用して、感情認識のためのさまざまなCNNモデルをトレーニングする。
その結果,情緒状態を自動的に認識するためにシーンコンテキストが重要な情報を提供することを示す。
論文 参考訳(メタデータ) (2020-03-30T12:38:50Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z) - Take an Emotion Walk: Perceiving Emotions from Gaits Using Hierarchical Attention Pooling and Affective Mapping [55.72376663488104]
本稿では、ビデオやモーションキャプチャーデータから得られた歩行スタイルから、知覚された人間の感情を分類するためのオートエンコーダに基づくアプローチを提案する。
3次元ポーズシーケンスから抽出した各ステップのポーズにおける各関節の動きを考慮し、これらの関節の動きをエンコーダに階層的にプールする。
我々はデコーダを訓練し、潜伏埋め込みからトップダウン方式で1ステップ当たりの関節の動きを再構築する。
論文 参考訳(メタデータ) (2019-11-20T05:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。