論文の概要: Recognizing Emotions evoked by Movies using Multitask Learning
- arxiv url: http://arxiv.org/abs/2107.14529v1
- Date: Fri, 30 Jul 2021 10:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 13:00:19.812037
- Title: Recognizing Emotions evoked by Movies using Multitask Learning
- Title(参考訳): マルチタスク学習を用いた映画による感情認識
- Authors: Hassan Hayat, Carles Ventura, Agata Lapedriza
- Abstract要約: 誘発感情を認識する方法は通常、人間の注釈付きデータに基づいて訓練される。
本稿では,Single-Task (ST) アーキテクチャとMulti-Task (MT) アーキテクチャの2つのディープラーニングアーキテクチャを提案する。
以上の結果から,MT手法は,アグリゲートアノテーションを直接訓練した手法と比較して,各ビューアとアグリゲートアノテーションをより正確にモデル化できることがわかった。
- 参考スコア(独自算出の注目度): 3.4290619267487488
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding the emotional impact of movies has become important for
affective movie analysis, ranking, and indexing. Methods for recognizing evoked
emotions are usually trained on human annotated data. Concretely, viewers watch
video clips and have to manually annotate the emotions they experienced while
watching the videos. Then, the common practice is to aggregate the different
annotations, by computing average scores or majority voting, and train and test
models on these aggregated annotations. With this procedure a single aggregated
evoked emotion annotation is obtained per each video. However, emotions
experienced while watching a video are subjective: different individuals might
experience different emotions. In this paper, we model the emotions evoked by
videos in a different manner: instead of modeling the aggregated value we
jointly model the emotions experienced by each viewer and the aggregated value
using a multi-task learning approach. Concretely, we propose two deep learning
architectures: a Single-Task (ST) architecture and a Multi-Task (MT)
architecture. Our results show that the MT approach can more accurately model
each viewer and the aggregated annotation when compared to methods that are
directly trained on the aggregated annotations. Furthermore, our approach
outperforms the current state-of-the-art results on the COGNIMUSE benchmark.
- Abstract(参考訳): 映画における感情的影響を理解することは、感情的映画分析、ランキング、索引付けにおいて重要である。
誘発感情を認識する方法は通常、人間の注釈付きデータに基づいて訓練される。
具体的には、視聴者はビデオクリップを見て、ビデオを見ながら経験した感情を手動でアノテートしなければならない。
次に、一般的なプラクティスは、平均スコアまたは過半数投票を計算して、異なるアノテーションを集約し、これらのアノテーションをトレーニングし、テストすることです。
この手順により、ビデオ毎に単一の集約された誘発感情アノテーションが得られる。
しかし、ビデオを見ながら経験した感情は主観的であり、異なる個人は異なる感情を経験する。
本稿では,ビデオによって誘発される感情を異なる方法でモデル化する: 集約された価値をモデル化する代わりに,複数タスク学習アプローチを用いて,各視聴者が経験した感情と集約された価値を共同でモデル化する。
具体的には,シングルタスク(st)アーキテクチャとマルチタスク(mt)アーキテクチャの2つのディープラーニングアーキテクチャを提案する。
その結果,MT手法は,アノテーションを直接訓練した手法と比較して,各ビューアと集約アノテーションをより正確にモデル化できることがわかった。
さらに,本手法はCOGNIMUSEベンチマークの最先端結果よりも優れている。
関連論文リスト
- EALD-MLLM: Emotion Analysis in Long-sequential and De-identity videos with Multi-modal Large Language Model [22.292581935835678]
EALDと呼ばれる長周期・非同一性ビデオにおける感情分析のためのデータセットを構築した。
また,NFBL(Non-Facial Body Language)アノテーションを各プレイヤーに提供します。
NFBLは内向きの感情表現であり、感情状態を理解するためのアイデンティティフリーな手がかりとして機能する。
論文 参考訳(メタデータ) (2024-05-01T15:25:54Z) - Multimodal Emotion Recognition by Fusing Video Semantic in MOOC Learning Scenarios [6.987099464814016]
MOOC(Massive Open Online Courses)では,指導ビデオの意味情報は学習者の感情状態に決定的な影響を及ぼす。
本稿では,映像意味情報と意味信号の融合によるマルチモーダル感情認識手法を提案する。
実験の結果,本手法は感情認識性能を著しく改善したことが示された。
論文 参考訳(メタデータ) (2024-04-11T05:44:27Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - MAFW: A Large-scale, Multi-modal, Compound Affective Database for
Dynamic Facial Expression Recognition in the Wild [56.61912265155151]
大規模複合感情データベースMAFWを提案する。
各クリップには、複雑な感情カテゴリーと、クリップ内の被験者の感情行動を記述する2つの文が注釈付けされている。
複合感情のアノテーションでは、それぞれのクリップは、怒り、嫌悪感、恐怖、幸福、中立、悲しみ、驚き、軽蔑、不安、無力感、失望など、広く使われている11の感情のうちの1つ以上に分類される。
論文 参考訳(メタデータ) (2022-08-01T13:34:33Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - Affect2MM: Affective Analysis of Multimedia Content Using Emotion
Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。
私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文 参考訳(メタデータ) (2021-03-11T09:07:25Z) - Direct Classification of Emotional Intensity [4.360819666001918]
我々は、0から10までの強度スコアを出力する、さまざまな人の笑顔のビデオを使用して、モデルをトレーニングする。
そこで,本モデルは適応学習技術を用いて,新しい科目を扱う際の性能を向上させる。
論文 参考訳(メタデータ) (2020-11-15T06:32:48Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。