論文の概要: Enhancing the Prediction of Emotional Experience in Movies using Deep
Neural Networks: The Significance of Audio and Language
- arxiv url: http://arxiv.org/abs/2306.10397v1
- Date: Sat, 17 Jun 2023 17:40:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 21:04:01.533675
- Title: Enhancing the Prediction of Emotional Experience in Movies using Deep
Neural Networks: The Significance of Audio and Language
- Title(参考訳): ディープニューラルネットワークを用いた映画における感情体験予測の強化:音声と言語の重要性
- Authors: Sogand Mehrpour Mohammadi, Meysam Gouran Orimi, Hamidreza Rabiee
- Abstract要約: 本稿では、映画視聴中に経験した人間の感情の範囲を正確に予測するために、ディープニューラルネットワークモデルを活用することに焦点を当てる。
この設定では、経験的感情に大きく影響を与える3つの明確な入力モダリティが存在する:RGBビデオフレームから派生した視覚的手がかり、音声、音声、音楽を含む聴覚的要素、アクターの対話を含む言語的要素である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Our paper focuses on making use of deep neural network models to accurately
predict the range of human emotions experienced during watching movies. In this
certain setup, there exist three clear-cut input modalities that considerably
influence the experienced emotions: visual cues derived from RGB video frames,
auditory components encompassing sounds, speech, and music, and linguistic
elements encompassing actors' dialogues. Emotions are commonly described using
a two-factor model including valence (ranging from happy to sad) and arousal
(indicating the intensity of the emotion). In this regard, a Plethora of works
have presented a multitude of models aiming to predict valence and arousal from
video content. However, non of these models contain all three modalities, with
language being consistently eliminated across all of them. In this study, we
comprehensively combine all modalities and conduct an analysis to ascertain the
importance of each in predicting valence and arousal. Making use of pre-trained
neural networks, we represent each input modality in our study. In order to
process visual input, we employ pre-trained convolutional neural networks to
recognize scenes[1], objects[2], and actions[3,4]. For audio processing, we
utilize a specialized neural network designed for handling sound-related tasks,
namely SoundNet[5]. Finally, Bidirectional Encoder Representations from
Transformers (BERT) models are used to extract linguistic features[6] in our
analysis. We report results on the COGNIMUSE dataset[7], where our proposed
model outperforms the current state-of-the-art approaches. Surprisingly, our
findings reveal that language significantly influences the experienced arousal,
while sound emerges as the primary determinant for predicting valence. In
contrast, the visual modality exhibits the least impact among all modalities in
predicting emotions.
- Abstract(参考訳): 本稿では,ディープニューラルネットワークモデルを用いて,映画視聴中に経験される人間の感情の範囲を正確に予測することに焦点を当てた。
この設定では、経験的感情に大きく影響を与える3つの明確な入力モダリティが存在する:RGBビデオフレームから派生した視覚的手がかり、音声、音声、音楽を含む聴覚的要素、アクターの対話を含む言語的要素。
感情は、ヴァレンス(幸せから悲しみへ)と覚醒(感情の強さを示す)を含む2要素モデルを用いて記述されることが多い。
この点に関してPlethoraは、ビデオコンテンツから価と刺激を予測するために、数多くのモデルを提示している。
しかし、これらのモデルにはすべて3つのモダリティが含まれておらず、言語はそれらすべてを通して一貫して排除されている。
本研究では,すべてのモダリティを包括的に結合し,それぞれのヴァレンスと覚醒の予測における重要度を確認する分析を行う。
事前学習したニューラルネットワークを用いて,各入力のモダリティを表現する。
視覚入力を処理するために,事前学習された畳み込みニューラルネットワークを用いてシーン[1],オブジェクト[2],アクション[3,4]を認識する。
音声処理には,音声関連タスク,すなわちsoundnet[5]を扱うために設計された専用ニューラルネットワークを用いる。
最後に,変換器(BERT)モデルからの双方向エンコーダ表現を用いて言語特徴[6]を抽出する。
cognimuseデータセット[7]の結果を報告する。ここでは、提案モデルが現在の最先端のアプローチを上回っている。
驚くべきことに, 言語は経験的覚醒に大きく影響するが, 音はヴァレンス予測の主要な決定要因として現れる。
対照的に、視覚モダリティは感情を予測する全てのモダリティの中で最も影響が少ない。
関連論文リスト
- Speaker Emotion Recognition: Leveraging Self-Supervised Models for Feature Extraction Using Wav2Vec2 and HuBERT [0.0]
本研究では, 自己教師型トランスフォーマーモデルであるWav2Vec2とHuBERTを用いて, 話者の感情を音声から判断する。
提案手法は、RAVDESS、SHEMO、SAVEE、AESDD、Emo-DBを含む計算可能なデータセットに基づいて評価される。
論文 参考訳(メタデータ) (2024-11-05T10:06:40Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion
Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。
モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。
文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文 参考訳(メタデータ) (2023-04-14T03:25:00Z) - TriBERT: Full-body Human-centric Audio-visual Representation Learning
for Visual Sound Separation [35.93516937521393]
ViLBERTにインスパイアされたトランスフォーマーベースのアーキテクチャであるTriBERTを紹介する。
TriBERTは、視覚、ポーズ、オーディオの3つのモードにわたるコンテキスト的特徴学習を可能にする。
学習したTriBERT表現は汎用的であり、他の音声視覚タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-10-26T04:50:42Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Leveraging Recent Advances in Deep Learning for Audio-Visual Emotion
Recognition [2.1485350418225244]
人間の行動分析のために, 自発的なマルチモーダル感情認識が広く研究されている。
視聴覚感情認識のための深層学習に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-03-16T15:49:15Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。