論文の概要: Art2Music: Generating Music for Art Images with Multi-modal Feeling Alignment
- arxiv url: http://arxiv.org/abs/2512.00120v1
- Date: Thu, 27 Nov 2025 21:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.078795
- Title: Art2Music: Generating Music for Art Images with Multi-modal Feeling Alignment
- Title(参考訳): Art2Music:マルチモーダル・フィーリング・アライメントによるアート画像のための音楽生成
- Authors: Jiaying Hong, Ting Zhu, Thanet Markchom, Huizhi Liang,
- Abstract要約: ArtiCapsは、ArtEmisとMusicCapsのセマンティックな記述をマッチングして作成した、擬似的な感覚整列画像テキストデータセットである。
Art2Musicは、アートイメージとユーザコメントから音楽を合成する軽量なクロスモーダルフレームワークである。
ArtiCapsの実験では、メルケプストラム歪み、フレシェ・オーディオ・ディスタンス、ログスペクトル・ディスタンス、コサイン類似性が明らかに改善されている。
- 参考スコア(独自算出の注目度): 2.6505592523846495
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rise of AI-generated content (AIGC), generating perceptually natural and feeling-aligned music from multimodal inputs has become a central challenge. Existing approaches often rely on explicit emotion labels that require costly annotation, underscoring the need for more flexible feeling-aligned methods. To support multimodal music generation, we construct ArtiCaps, a pseudo feeling-aligned image-music-text dataset created by semantically matching descriptions from ArtEmis and MusicCaps. We further propose Art2Music, a lightweight cross-modal framework that synthesizes music from artistic images and user comments. In the first stage, images and text are encoded with OpenCLIP and fused using a gated residual module; the fused representation is decoded by a bidirectional LSTM into Mel-spectrograms with a frequency-weighted L1 loss to enhance high-frequency fidelity. In the second stage, a fine-tuned HiFi-GAN vocoder reconstructs high-quality audio waveforms. Experiments on ArtiCaps show clear improvements in Mel-Cepstral Distortion, Frechet Audio Distance, Log-Spectral Distance, and cosine similarity. A small LLM-based rating study further verifies consistent cross-modal feeling alignment and offers interpretable explanations of matches and mismatches across modalities. These results demonstrate improved perceptual naturalness, spectral fidelity, and semantic consistency. Art2Music also maintains robust performance with only 50k training samples, providing a scalable solution for feeling-aligned creative audio generation in interactive art, personalized soundscapes, and digital art exhibitions.
- Abstract(参考訳): AI生成コンテンツ(AIGC)の台頭に伴い、マルチモーダル入力から知覚的に自然で感覚に整合した音楽を生成することが中心的な課題となっている。
既存のアプローチは、しばしばコストのかかるアノテーションを必要とする明示的な感情ラベルに依存しており、より柔軟なフィーリング・アライメント・メソッドの必要性を強調している。
マルチモーダルな音楽生成を支援するために,ArtEmis と MusicCaps から記述を意味的にマッチングして生成した擬似的な感情対応画像・音楽テキストデータセット ArtiCaps を構築した。
さらに,アート画像やユーザコメントから楽曲を合成する軽量なクロスモーダルフレームワークであるArt2Musicを提案する。
第1段階では、画像とテキストをOpenCLIPで符号化し、ゲート残留モジュールを用いて融合し、融合表現を双方向LSTMによりメルスペクトルにデコードし、周波数重み付きL1損失を伴い、高周波忠実度を高める。
第2段階では、微調整されたHiFi-GANボコーダが高品質なオーディオ波形を再構成する。
ArtiCapsの実験では、メルケプストラム歪み、フレシェ・オーディオ・ディスタンス、ログスペクトル・ディスタンス、コサイン類似性が明らかに改善されている。
LLMに基づく小さな評価研究は、一貫した相互モーダル感のアライメントをさらに検証し、一致とモダリティ間のミスマッチの解釈可能な説明を提供する。
これらの結果から,知覚の自然性,スペクトルの忠実度,意味的一貫性が向上した。
Art2Musicはまた、50kのトレーニングサンプルだけで堅牢なパフォーマンスを維持しており、インタラクティブアート、パーソナライズされたサウンドスケープ、デジタルアートエキシビションにおいて、感覚に合わせたクリエイティブなオーディオ生成のためのスケーラブルなソリューションを提供する。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - LeVo: High-Quality Song Generation with Multi-Preference Alignment [47.965028296133426]
我々はLeLMとMusic Codecで構成される言語モデルベースのフレームワークであるLeVoを紹介する。
LeVoは2種類のトークンを並列にモデリングすることができる。
2つのデコーダのみのトランスフォーマーと、異なるトークンタイプ間の干渉を防ぐためのモジュール拡張トレーニング戦略を採用している。
論文 参考訳(メタデータ) (2025-06-09T07:57:24Z) - Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings [10.302353984541497]
本研究では,視覚芸術で表現される感情に共鳴する音楽を生成するモデルを開発した。
コーディネートアートと音楽データの不足に対処するため、私たちはEmotion Painting Musicデータセットをキュレートした。
我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
論文 参考訳(メタデータ) (2024-09-12T08:19:25Z) - Mozart's Touch: A Lightweight Multi-modal Music Generation Framework Based on Pre-Trained Large Models [9.311353871322325]
Mozart's Touchは、画像、ビデオ、テキストなどのクロスプラットフォーム入力と整合した音楽を生成することができるフレームワークである。
従来のエンド・ツー・エンドの手法とは異なり、モーツァルト・タッチはLPMを使って音楽生成モデルの訓練や微調整を必要とせず、視覚要素を正確に解釈する。
論文 参考訳(メタデータ) (2024-05-05T03:15:52Z) - Sheet Music Transformer: End-To-End Optical Music Recognition Beyond Monophonic Transcription [13.960714900433269]
Sheet Music Transformer(シート・ミュージック・トランスフォーマー)は、モノフォニック・ストラテジーのみに頼らずに複雑な楽譜を転写するために設計された最初のエンドツーエンドのOMRモデルである。
我々のモデルは2つのポリフォニック音楽データセットでテストされており、これらの複雑な音楽構造を効果的に扱えることが証明されている。
論文 参考訳(メタデータ) (2024-02-12T11:52:21Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。