論文の概要: MPJudge: Towards Perceptual Assessment of Music-Induced Paintings
- arxiv url: http://arxiv.org/abs/2511.07137v1
- Date: Mon, 10 Nov 2025 14:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.298591
- Title: MPJudge: Towards Perceptual Assessment of Music-Induced Paintings
- Title(参考訳): MPJudge:音楽による絵画の知覚的評価を目指して
- Authors: Shiqi Jiang, Tianyi Liang, Changbo Wang, Chenhui Li,
- Abstract要約: 音楽誘導絵画はユニークな芸術的実践であり、視覚芸術は音楽の影響下で創造される。
本稿では,音楽と視覚芸術の知覚的コヒーレンスを直接モデル化する,音楽誘発絵画評価のための新しい枠組みを提案する。
本稿では,変調に基づく融合機構を用いて,音楽特徴を視覚エンコーダに統合するモデルMPJudgeを提案する。
- 参考スコア(独自算出の注目度): 25.063505095572093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music induced painting is a unique artistic practice, where visual artworks are created under the influence of music. Evaluating whether a painting faithfully reflects the music that inspired it poses a challenging perceptual assessment task. Existing methods primarily rely on emotion recognition models to assess the similarity between music and painting, but such models introduce considerable noise and overlook broader perceptual cues beyond emotion. To address these limitations, we propose a novel framework for music induced painting assessment that directly models perceptual coherence between music and visual art. We introduce MPD, the first large scale dataset of music painting pairs annotated by domain experts based on perceptual coherence. To better handle ambiguous cases, we further collect pairwise preference annotations. Building on this dataset, we present MPJudge, a model that integrates music features into a visual encoder via a modulation based fusion mechanism. To effectively learn from ambiguous cases, we adopt Direct Preference Optimization for training. Extensive experiments demonstrate that our method outperforms existing approaches. Qualitative results further show that our model more accurately identifies music relevant regions in paintings.
- Abstract(参考訳): 音楽誘導絵画はユニークな芸術的実践であり、視覚芸術は音楽の影響下で創造される。
絵画がそれを刺激した音楽を忠実に反映しているかどうかを評価することは、困難な知覚的評価課題となる。
既存の方法は、主に音楽と絵画の類似性を評価するために感情認識モデルに頼っているが、そのようなモデルにはかなりのノイズが伴い、感情を超えたより広い知覚の手がかりを見落としている。
これらの制約に対処するため、音楽と視覚芸術の知覚的コヒーレンスを直接モデル化する音楽誘導絵画評価の新しい枠組みを提案する。
本稿では,視覚的コヒーレンスに基づいて,ドメインの専門家が注釈を付した最初の大規模音楽絵画ペアのデータセットMPDを紹介する。
あいまいなケースをよりうまく扱うために、ペアワイズな好みアノテーションをさらに収集する。
このデータセット上に構築されたMPJudgeは,変調に基づく融合機構によって音楽特徴を視覚エンコーダに統合するモデルである。
あいまいなケースから効果的に学習するために、トレーニングにダイレクト・プライス・オプティマイズを採用する。
大規模な実験により,本手法が既存手法より優れていることが示された。
さらに定性的な結果から,本モデルが絵画における音楽関連領域をより正確に識別できることが示唆された。
関連論文リスト
- A Study on the Data Distribution Gap in Music Emotion Recognition [7.281487567929003]
音楽感情認識(英語: Music Emotion Recognition, MER)は、人間の知覚に深く結びついている課題である。
先行研究は、様々なジャンルを取り入れるよりも、特定の音楽スタイルに焦点を当てる傾向がある。
音声コンテンツから感情を認識するタスクには,次元的感情アノテーションを用いた5つのデータセットを探索する。
論文 参考訳(メタデータ) (2025-10-06T10:57:05Z) - Emergence of Painting Ability via Recognition-Driven Evolution [49.666177849272856]
脳卒中枝とパレット枝を併用したモデルを提案する。
マシンビジョンで達成した認識精度を計測することにより、視覚コミュニケーションの効率を定量化する。
実験結果から,本モデルは高次認識タスクにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-01-09T04:37:31Z) - Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings [10.302353984541497]
本研究では,視覚芸術で表現される感情に共鳴する音楽を生成するモデルを開発した。
コーディネートアートと音楽データの不足に対処するため、私たちはEmotion Painting Musicデータセットをキュレートした。
我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
論文 参考訳(メタデータ) (2024-09-12T08:19:25Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Motif-Centric Representation Learning for Symbolic Music [5.781931021964343]
我々は、表現学習を通してモチーフとそのバリエーションの間の暗黙の関係を学習する。
正規化に基づくVICRegは事前学習に採用され、コントラスト学習は微調整に使用されている。
得られたモチーフ表現を可視化し、楽曲全体の構造を直感的に理解する。
論文 参考訳(メタデータ) (2023-09-19T13:09:03Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Tracing Back Music Emotion Predictions to Sound Sources and Intuitive
Perceptual Qualities [6.832341432995627]
音楽感情認識は,音楽情報検索研究において重要な課題である。
より良いモデルに向けた重要なステップの1つは、モデルが実際にデータから学んでいるものを理解することである。
本研究では,高レベルの感情予測に結びつくスペクトル画像セグメントを用いて,モデル予測の説明を導出する方法を示す。
論文 参考訳(メタデータ) (2021-06-14T22:49:19Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。