論文の概要: AttendAffectNet: Self-Attention based Networks for Predicting Affective
Responses from Movies
- arxiv url: http://arxiv.org/abs/2010.11188v1
- Date: Wed, 21 Oct 2020 05:13:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 01:01:42.138695
- Title: AttendAffectNet: Self-Attention based Networks for Predicting Affective
Responses from Movies
- Title(参考訳): AttendAffectNet:映画からの感情反応を予測する自己注意型ネットワーク
- Authors: Ha Thi Phuong Thao, Balamurali B.T., Dorien Herremans and Gemma Roig
- Abstract要約: 本研究では、映画から感情予測のための自己注意型ネットワークの様々なバリエーションを提案し、これをAttendAffectNetと呼ぶ。
音声とビデオの両方を考慮し、感情予測のための抽出特徴に自己認識機構を新しい方法で適用することにより、複数のモーダル間の関係を取り入れる。
以上の結果から,時間領域よりも視覚的特徴に自己注意機構を適用する方が感情予測に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 16.45955178108593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose different variants of the self-attention based
network for emotion prediction from movies, which we call AttendAffectNet. We
take both audio and video into account and incorporate the relation among
multiple modalities by applying self-attention mechanism in a novel manner into
the extracted features for emotion prediction. We compare it to the typically
temporal integration of the self-attention based model, which in our case,
allows to capture the relation of temporal representations of the movie while
considering the sequential dependencies of emotion responses. We demonstrate
the effectiveness of our proposed architectures on the extended COGNIMUSE
dataset [1], [2] and the MediaEval 2016 Emotional Impact of Movies Task [3],
which consist of movies with emotion annotations. Our results show that
applying the self-attention mechanism on the different audio-visual features,
rather than in the time domain, is more effective for emotion prediction. Our
approach is also proven to outperform many state-ofthe-art models for emotion
prediction. The code to reproduce our results with the models' implementation
is available at: https://github.com/ivyha010/AttendAffectNet.
- Abstract(参考訳): 本研究では,映画から感情予測を行うセルフアテンションベースネットワークの様々なバリエーションを提案し,これをAttendAffectNetと呼ぶ。
音声とビデオの両方を考慮し、感情予測のための抽出特徴に自己認識機構を新しい方法で適用することにより、複数のモーダル間の関係を取り入れる。
本稿では, 感情応答の逐次的依存性を考慮しつつ, 映像の時間的表現の関係を捉えることのできる, 自己注意型モデルの典型的時間的統合と比較する。
提案手法の有効性を,感情アノテーション付き映画からなるCOGNIMUSEデータセット[1],[2]とMediaEval 2016 Emotional Impact of Movies Task[3]に示す。
その結果,時間領域ではなく,異なる視聴覚特徴に自己着脱機構を適用する方が感情予測に有効であることがわかった。
我々のアプローチは感情予測の最先端モデルよりも優れていることも証明されている。
モデルの実装で結果を再現するコードは、https://github.com/ivyha010/AttendAffectNet.comで公開されている。
関連論文リスト
- Enhancing the Prediction of Emotional Experience in Movies using Deep
Neural Networks: The Significance of Audio and Language [0.0]
本稿では、映画視聴中に経験した人間の感情の範囲を正確に予測するために、ディープニューラルネットワークモデルを活用することに焦点を当てる。
この設定では、経験的感情に大きく影響を与える3つの明確な入力モダリティが存在する:RGBビデオフレームから派生した視覚的手がかり、音声、音声、音楽を含む聴覚的要素、アクターの対話を含む言語的要素である。
論文 参考訳(メタデータ) (2023-06-17T17:40:27Z) - Mutilmodal Feature Extraction and Attention-based Fusion for Emotion
Estimation in Videos [16.28109151595872]
ABAW(Affective Behavior Analysis in the-wild)に関するCVPR 2023コンペティションについて紹介する。
我々は、音声、ポーズ、画像など、競合データセットから異なる長さのビデオから抽出したマルチモーダル特徴を利用した。
本システムでは,検証データセット上での0.361の性能を実現する。
論文 参考訳(メタデータ) (2023-03-18T14:08:06Z) - Dilated Context Integrated Network with Cross-Modal Consensus for
Temporal Emotion Localization in Videos [128.70585652795637]
TELは、時間的行動の局所化と比較して3つのユニークな課題を提示している。
感情は時間的ダイナミクスが非常に多様である。
微粒な時間的アノテーションは複雑で、労働集約的です。
論文 参考訳(メタデータ) (2022-08-03T10:00:49Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Affect2MM: Affective Analysis of Multimedia Content Using Emotion
Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。
私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文 参考訳(メタデータ) (2021-03-11T09:07:25Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z) - Emotional Video to Audio Transformation Using Deep Recurrent Neural
Networks and a Neuro-Fuzzy System [8.900866276512364]
現在のアプローチは、音楽生成ステップにおけるビデオの感情的特徴を見落としている。
本稿では,適応型ニューロファジィ推論システムを用いて映像の感情を予測するハイブリッドディープニューラルネットワークを提案する。
我々のモデルは、両方のデータセットのビューアーから類似した感情を引き出すシーンにマッチする音声を効果的に生成できる。
論文 参考訳(メタデータ) (2020-04-05T07:18:28Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。