論文の概要: MMVA: Multimodal Matching Based on Valence and Arousal across Images, Music, and Musical Captions
- arxiv url: http://arxiv.org/abs/2501.01094v1
- Date: Thu, 02 Jan 2025 06:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:16.039271
- Title: MMVA: Multimodal Matching Based on Valence and Arousal across Images, Music, and Musical Captions
- Title(参考訳): MMVA:画像,音楽,音楽キャプション間の妥当性と覚醒に基づくマルチモーダルマッチング
- Authors: Suhwan Choi, Kyu Won Kim, Myungjoo Kang,
- Abstract要約: 妥当性と覚醒度に基づくマルチモーダルマッチング(MMVA)を提案する。
MMVA(MMVA)は、画像、音楽、音楽のキャプションにまたがる感情的コンテンツをキャプチャするために設計された、トリモーダルなエンコーダフレームワークである。
本研究では, 連続値(感情肯定)と覚醒値(感情強度)に基づいて, マルチモーダルマッチングスコアを用いる。
- 参考スコア(独自算出の注目度): 7.733519760614755
- License:
- Abstract: We introduce Multimodal Matching based on Valence and Arousal (MMVA), a tri-modal encoder framework designed to capture emotional content across images, music, and musical captions. To support this framework, we expand the Image-Music-Emotion-Matching-Net (IMEMNet) dataset, creating IMEMNet-C which includes 24,756 images and 25,944 music clips with corresponding musical captions. We employ multimodal matching scores based on the continuous valence (emotional positivity) and arousal (emotional intensity) values. This continuous matching score allows for random sampling of image-music pairs during training by computing similarity scores from the valence-arousal values across different modalities. Consequently, the proposed approach achieves state-of-the-art performance in valence-arousal prediction tasks. Furthermore, the framework demonstrates its efficacy in various zeroshot tasks, highlighting the potential of valence and arousal predictions in downstream applications.
- Abstract(参考訳): 本稿では,Valence and Arousal(MMVA)に基づくマルチモーダルマッチング(Multimodal Matching)を提案する。
このフレームワークをサポートするために, IMEMNetデータセットを拡張し, 24,756 画像と25,944 曲のキャプションを含む IMEMNet-C を作成する。
本研究では, 連続値(感情肯定)と覚醒値(感情強度)に基づいて, マルチモーダルマッチングスコアを用いる。
この連続マッチングスコアは、異なるモード間で価-覚醒値から類似度スコアを計算することにより、トレーニング中に画像-楽音対をランダムにサンプリングすることができる。
提案手法は,有価な覚醒的予測タスクにおける最先端性能を実現する。
さらに、このフレームワークは様々なゼロショットタスクにおいてその有効性を示し、下流アプリケーションにおける原子価と覚醒予測の可能性を強調している。
関連論文リスト
- Mozart's Touch: A Lightweight Multi-modal Music Generation Framework Based on Pre-Trained Large Models [9.311353871322325]
Mozart's Touchは、画像、ビデオ、テキストなどのクロスプラットフォーム入力と整合した音楽を生成することができるフレームワークである。
従来のエンド・ツー・エンドの手法とは異なり、モーツァルト・タッチはLPMを使って音楽生成モデルの訓練や微調整を必要とせず、視覚要素を正確に解釈する。
論文 参考訳(メタデータ) (2024-05-05T03:15:52Z) - MAiVAR-T: Multimodal Audio-image and Video Action Recognizer using
Transformers [18.72489078928417]
オーディオ画像とビデオのモダリティを組み合わせた新しいモデルを提案する。
このモデルは、オーディオ画像とビデオモダリティの組み合わせに直感的なアプローチを採用する。
ベンチマーク動作認識データセット上で実施した経験的評価は,そのモデルの顕著な性能を裏付けるものである。
論文 参考訳(メタデータ) (2023-08-01T11:00:25Z) - Late multimodal fusion for image and audio music transcription [0.0]
マルチモーダル画像とオーディオ音楽の書き起こしは、画像とオーディオのモダリティによって伝達される情報を効果的に組み合わせるという課題を含む。
エンドツーエンドのOMRシステムとAMTシステムに関する仮説を,初めてマージするために,4つの組み合わせのアプローチについて検討した。
4つの戦略のうちの2つは、対応する単調な標準認識フレームワークを著しく改善することを検討した。
論文 参考訳(メタデータ) (2022-04-06T20:00:33Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Emotion-Based End-to-End Matching Between Image and Music in
Valence-Arousal Space [80.49156615923106]
イメージと音楽に類似した感情を合わせることは、感情の知覚をより鮮明で強くするのに役立つ。
既存の感情に基づく画像と音楽のマッチング手法では、限られたカテゴリーの感情状態を使用するか、非現実的なマルチステージパイプラインを使用してマッチングモデルを訓練する。
本稿では,連続的原子価覚醒空間(VA)における感情に基づく画像と音楽のエンドツーエンドマッチングについて検討する。
論文 参考訳(メタデータ) (2020-08-22T20:12:23Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - $M^3$T: Multi-Modal Continuous Valence-Arousal Estimation in the Wild [86.40973759048957]
本報告では、ABAW(Affective Behavior Analysis in-the-wild)チャレンジの価-覚醒的評価トラックへの提案に基づくマルチモーダルマルチタスク(M3$T)アプローチについて述べる。
提案したM3$Tフレームワークでは,ビデオの視覚的特徴とオーディオトラックの音響的特徴の両方を融合させて,有声度と覚醒度を推定する。
ABAW が提供する検証セットに対して,M3$T フレームワークを評価し,ベースライン法を著しく上回る性能を示した。
論文 参考訳(メタデータ) (2020-02-07T18:53:13Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。