論文の概要: Predicting emotion from music videos: exploring the relative
contribution of visual and auditory information to affective responses
- arxiv url: http://arxiv.org/abs/2202.10453v1
- Date: Sat, 19 Feb 2022 07:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-26 12:56:01.603401
- Title: Predicting emotion from music videos: exploring the relative
contribution of visual and auditory information to affective responses
- Title(参考訳): 音楽ビデオからの感情予測 : 視覚・聴覚情報の感情応答に対する相対的寄与について
- Authors: Phoebe Chua (1), Dimos Makris (2), Dorien Herremans (2), Gemma Roig
(3), Kat Agres (4) ((1) Department of Information Systems and Analytics,
National University of Singapore, (2) Singapore University of Technology and
Design, (3) Goethe University Frankfurt, (4) Yong Siew Toh Conservatory of
Music, National University of Singapore)
- Abstract要約: 本稿では、感情的マルチメディアコンテンツ分析のための新しいデータセットであるMusicVideos(MuVi)を紹介する。
データは、音楽、視覚、オーディオヴィジュアルの3つの条件で、参加者に音楽映像を提示することで収集された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although media content is increasingly produced, distributed, and consumed in
multiple combinations of modalities, how individual modalities contribute to
the perceived emotion of a media item remains poorly understood. In this paper
we present MusicVideos (MuVi), a novel dataset for affective multimedia content
analysis to study how the auditory and visual modalities contribute to the
perceived emotion of media. The data were collected by presenting music videos
to participants in three conditions: music, visual, and audiovisual.
Participants annotated the music videos for valence and arousal over time, as
well as the overall emotion conveyed. We present detailed descriptive
statistics for key measures in the dataset and the results of feature
importance analyses for each condition. Finally, we propose a novel transfer
learning architecture to train Predictive models Augmented with Isolated
modality Ratings (PAIR) and demonstrate the potential of isolated modality
ratings for enhancing multimodal emotion recognition. Our results suggest that
perceptions of arousal are influenced primarily by auditory information, while
perceptions of valence are more subjective and can be influenced by both visual
and auditory information. The dataset is made publicly available.
- Abstract(参考訳): メディアコンテンツは徐々に生産され、配布され、複数のモダリティの組み合わせで消費されるようになっているが、個々のモダリティがメディアアイテムの知覚的感情にどのように寄与するかは、いまだによく分かっていない。
本稿では、感情的マルチメディアコンテンツ分析のための新しいデータセットであるMusicVideos(MuVi)について、聴覚と視覚のモダリティがメディアの知覚的感情にどのように寄与するかを研究する。
データは、音楽、視覚、オーディオヴィジュアルの3つの条件で、参加者に音楽映像を提示することで収集された。
参加者は、音楽ビデオのヴァレンスと覚醒、そして伝達される全体的な感情に注釈を付けました。
本稿では,データセットにおける重要尺度の詳細な記述統計と,各条件に対する特徴量分析の結果について述べる。
最後に,分離モダリティレーティング(PAIR)を付加した予測モデルを学習するための新しい伝達学習アーキテクチャを提案し,マルチモーダル感情認識を向上するためのモダリティ評価の可能性を示す。
その結果, 覚醒の知覚は主に聴覚情報に影響され, ヴァレンスの知覚はより主観的であり, 視覚情報と聴覚情報の両方に影響されることが示唆された。
データセットは公開されています。
関連論文リスト
- Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings [10.302353984541497]
本研究では,視覚芸術で表現される感情に共鳴する音楽を生成するモデルを開発した。
コーディネートアートと音楽データの不足に対処するため、私たちはEmotion Painting Musicデータセットをキュレートした。
我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
論文 参考訳(メタデータ) (2024-09-12T08:19:25Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Exploring Emotion Expression Recognition in Older Adults Interacting
with a Virtual Coach [22.00225071959289]
EMPATHICプロジェクトは、健康な高齢者が健康を改善し、自立した高齢化を促進することができる感情表現型バーチャルコーチを設計することを目的としている。
本稿では,仮想コーチの感情表現認識モジュールの開発について概説し,データ収集,アノテーション設計,第1の方法論的アプローチについて述べる。
論文 参考訳(メタデータ) (2023-11-09T18:22:32Z) - Enhancing the Prediction of Emotional Experience in Movies using Deep
Neural Networks: The Significance of Audio and Language [0.0]
本稿では、映画視聴中に経験した人間の感情の範囲を正確に予測するために、ディープニューラルネットワークモデルを活用することに焦点を当てる。
この設定では、経験的感情に大きく影響を与える3つの明確な入力モダリティが存在する:RGBビデオフレームから派生した視覚的手がかり、音声、音声、音楽を含む聴覚的要素、アクターの対話を含む言語的要素である。
論文 参考訳(メタデータ) (2023-06-17T17:40:27Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z) - Affective Image Content Analysis: Two Decades Review and New
Perspectives [132.889649256384]
我々は,過去20年間の情緒的イメージコンテンツ分析(AICA)の発展を包括的にレビューする。
我々は、感情的ギャップ、知覚主観性、ラベルノイズと欠如という3つの主要な課題に関して、最先端の手法に焦点を当てる。
画像の内容やコンテキスト理解,グループ感情クラスタリング,ビューアーとイメージのインタラクションなど,今後の課題や研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-06-30T15:20:56Z) - Affect2MM: Affective Analysis of Multimedia Content Using Emotion
Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。
私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文 参考訳(メタデータ) (2021-03-11T09:07:25Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。