論文の概要: Emotion-Based End-to-End Matching Between Image and Music in
Valence-Arousal Space
- arxiv url: http://arxiv.org/abs/2009.05103v1
- Date: Sat, 22 Aug 2020 20:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 08:20:51.071710
- Title: Emotion-Based End-to-End Matching Between Image and Music in
Valence-Arousal Space
- Title(参考訳): Valence-Arousal Spaceにおける感情に基づく画像と音楽のエンドツーエンドマッチング
- Authors: Sicheng Zhao, Yaxian Li, Xingxu Yao, Weizhi Nie, Pengfei Xu, Jufeng
Yang, Kurt Keutzer
- Abstract要約: イメージと音楽に類似した感情を合わせることは、感情の知覚をより鮮明で強くするのに役立つ。
既存の感情に基づく画像と音楽のマッチング手法では、限られたカテゴリーの感情状態を使用するか、非現実的なマルチステージパイプラインを使用してマッチングモデルを訓練する。
本稿では,連続的原子価覚醒空間(VA)における感情に基づく画像と音楽のエンドツーエンドマッチングについて検討する。
- 参考スコア(独自算出の注目度): 80.49156615923106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Both images and music can convey rich semantics and are widely used to induce
specific emotions. Matching images and music with similar emotions might help
to make emotion perceptions more vivid and stronger. Existing emotion-based
image and music matching methods either employ limited categorical emotion
states which cannot well reflect the complexity and subtlety of emotions, or
train the matching model using an impractical multi-stage pipeline. In this
paper, we study end-to-end matching between image and music based on emotions
in the continuous valence-arousal (VA) space. First, we construct a large-scale
dataset, termed Image-Music-Emotion-Matching-Net (IMEMNet), with over 140K
image-music pairs. Second, we propose cross-modal deep continuous metric
learning (CDCML) to learn a shared latent embedding space which preserves the
cross-modal similarity relationship in the continuous matching space. Finally,
we refine the embedding space by further preserving the single-modal emotion
relationship in the VA spaces of both images and music. The metric learning in
the embedding space and task regression in the label space are jointly
optimized for both cross-modal matching and single-modal VA prediction. The
extensive experiments conducted on IMEMNet demonstrate the superiority of CDCML
for emotion-based image and music matching as compared to the state-of-the-art
approaches.
- Abstract(参考訳): 画像も音楽も豊かな意味を伝達し、特定の感情を誘発するために広く使われている。
イメージと音楽に類似した感情を合わせることは、感情の知覚をより鮮明で強くするのに役立つ。
既存の感情に基づく画像と音楽のマッチング手法では、感情の複雑さと微妙さを十分に反映できない限られたカテゴリーの感情状態を用いるか、あるいは非現実的な多段階パイプラインを使用してマッチングモデルを訓練する。
本稿では,連続的原子価覚醒空間(VA)における感情に基づく画像と音楽のエンドツーエンドマッチングについて検討する。
まず,140Kを超える画像-音楽-感情-マッチング-ネット(IMEMNet)と呼ばれる大規模データセットを構築した。
第2に、連続マッチング空間における相互類似性関係を保った共有潜在埋め込み空間を学習するために、クロスモーダル深部連続距離学習(CDCML)を提案する。
最後に,画像と音楽の両方のva空間における単一モーダル感情関係をさらに保ち,埋め込み空間を洗練する。
ラベル空間における埋め込み空間における計量学習とタスク回帰は、クロスモーダルマッチングと単一モーダルVA予測の両方に共同最適化される。
IMEMNetで行った広範囲な実験は、感情に基づくイメージと音楽マッチングにおけるCDCMLの優位性を、最先端のアプローチと比較して実証している。
関連論文リスト
- Aesthetic Matters in Music Perception for Image Stylization: A Emotion-driven Music-to-Visual Manipulation [13.052429836407052]
EmoMVは感情駆動型音楽-視覚間操作方式である。
我々は,画像品質指標,審美評価,脳波測定を含むマルチスケールフレームワークを用いてEmoMVを評価する。
以上の結果から,EmoMVは音楽の感情コンテンツを視覚的に説得力のある画像に効果的に翻訳することを示した。
論文 参考訳(メタデータ) (2025-01-03T08:41:53Z) - MMVA: Multimodal Matching Based on Valence and Arousal across Images, Music, and Musical Captions [7.733519760614755]
妥当性と覚醒度に基づくマルチモーダルマッチング(MMVA)を提案する。
MMVA(MMVA)は、画像、音楽、音楽のキャプションにまたがる感情的コンテンツをキャプチャするために設計された、トリモーダルなエンコーダフレームワークである。
本研究では, 連続値(感情肯定)と覚醒値(感情強度)に基づいて, マルチモーダルマッチングスコアを用いる。
論文 参考訳(メタデータ) (2025-01-02T06:36:09Z) - Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings [10.302353984541497]
本研究では,視覚芸術で表現される感情に共鳴する音楽を生成するモデルを開発した。
コーディネートアートと音楽データの不足に対処するため、私たちはEmotion Painting Musicデータセットをキュレートした。
我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
論文 参考訳(メタデータ) (2024-09-12T08:19:25Z) - Joint Learning of Emotions in Music and Generalized Sounds [6.854732863866882]
マルチドメイン学習手法として複数のデータセットを提案する。
我々のアプローチは、一般化された音と音楽の両方を特徴付ける特徴を包含する共通空間を作ることである。
異種モデルアーキテクチャを活用し,共通特徴空間で共同学習を行った。
論文 参考訳(メタデータ) (2024-08-04T12:19:03Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Multi-Branch Network for Imagery Emotion Prediction [4.618814297494939]
画像中の離散的感情と連続的感情の両方を予測する新しいマルチブランチネットワーク(MBN)を提案する。
提案手法は,mAPが28.4%,MAEが0.93で最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-12T18:34:56Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。