論文の概要: Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment
- arxiv url: http://arxiv.org/abs/2602.17599v1
- Date: Thu, 19 Feb 2026 18:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.303175
- Title: Art2Mus: Artwork-to-Music Generation via Visual Conditioning and Large-Scale Cross-Modal Alignment
- Title(参考訳): Art2Mus:ビジュアルコンディショニングと大規模クロスモーダルアライメントによるアートワーク・ツー・ミュージック生成
- Authors: Ivan Rinaldi, Matteo Mendula, Nicola Fanelli, Florence Levé, Matteo Testi, Giovanna Castellano, Gennaro Vessio,
- Abstract要約: 我々は,2つのモダリティキャプションを付加した105,884組のアート・ミュージック・ペアの大規模データセットであるArtSoundを紹介した。
ArtToMusは、直接アートから音楽への生成のために設計された最初のフレームワークである。
ArtToMusは、画像からテキストへの翻訳や言語ベースのセマンティック監督なしで、デジタル化されたアート作品を音楽にマッピングする。
- 参考スコア(独自算出の注目度): 8.468469176803241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music generation has advanced markedly through multimodal deep learning, enabling models to synthesize audio from text and, more recently, from images. However, existing image-conditioned systems suffer from two fundamental limitations: (i) they are typically trained on natural photographs, limiting their ability to capture the richer semantic, stylistic, and cultural content of artworks; and (ii) most rely on an image-to-text conversion stage, using language as a semantic shortcut that simplifies conditioning but prevents direct visual-to-audio learning. Motivated by these gaps, we introduce ArtSound, a large-scale multimodal dataset of 105,884 artwork-music pairs enriched with dual-modality captions, obtained by extending ArtGraph and the Free Music Archive. We further propose ArtToMus, the first framework explicitly designed for direct artwork-to-music generation, which maps digitized artworks to music without image-to-text translation or language-based semantic supervision. The framework projects visual embeddings into the conditioning space of a latent diffusion model, enabling music synthesis guided solely by visual information. Experimental results show that ArtToMus generates musically coherent and stylistically consistent outputs that reflect salient visual cues of the source artworks. While absolute alignment scores remain lower than those of text-conditioned systems-as expected given the substantially increased difficulty of removing linguistic supervision-ArtToMus achieves competitive perceptual quality and meaningful cross-modal correspondence. This work establishes direct visual-to-music generation as a distinct and challenging research direction, and provides resources that support applications in multimedia art, cultural heritage, and AI-assisted creative practice. Code and dataset will be publicly released upon acceptance.
- Abstract(参考訳): 音楽生成はマルチモーダルなディープラーニングによって著しく進歩し、モデルがテキストや最近では画像からオーディオを合成できるようになった。
しかし、既存の画像調和システムには2つの基本的な制限がある。
二 通常、自然写真に関する訓練を受け、美術品のより豊かな意味、様式的、文化的な内容を取り込む能力を制限すること。
(ii)ほとんどの場合、画像からテキストへの変換ステージに依存しており、条件付けを単純化するセマンティックショートカットとして言語を使用するが、直接視覚から音声への学習を妨げている。
これらのギャップに触発されたArtSoundは,ArtGraphとFree Music Archiveを拡張して得られた,2つのモダリティキャプションを満載した105,884組の大規模マルチモーダルデータセットである。
さらに、デジタル化されたアートワークを、画像からテキストへの翻訳や言語ベースのセマンティック管理なしで音楽にマッピングする、直接アート・ツー・ミュージック・ジェネレーション用に明示的に設計された最初のフレームワークであるArtToMusを提案する。
このフレームワークは、潜伏拡散モデルの条件空間に視覚的埋め込みを投影し、視覚情報のみによってガイドされた音楽合成を可能にする。
実験結果から、ArtToMusは音楽的に一貫性があり、スタイリスティックに一貫したアウトプットを生成する。
絶対的なアライメントスコアは、予想通りテキスト条件のシステムよりも低いが、言語的監督を取り除くことの難しさが著しく増大していることを考えると、ArtToMusは競争力のある知覚品質と意味のある相互対応を実現している。
この研究は、独特で挑戦的な研究の方向性として直接的な視覚的・音楽的生成を確立し、マルチメディアアート、文化遺産、AI支援の創造的実践における応用を支援するリソースを提供する。
コードとデータセットは受理時に公開される。
関連論文リスト
- Art2Music: Generating Music for Art Images with Multi-modal Feeling Alignment [2.6505592523846495]
ArtiCapsは、ArtEmisとMusicCapsのセマンティックな記述をマッチングして作成した、擬似的な感覚整列画像テキストデータセットである。
Art2Musicは、アートイメージとユーザコメントから音楽を合成する軽量なクロスモーダルフレームワークである。
ArtiCapsの実験では、メルケプストラム歪み、フレシェ・オーディオ・ディスタンス、ログスペクトル・ディスタンス、コサイン類似性が明らかに改善されている。
論文 参考訳(メタデータ) (2025-11-27T21:05:53Z) - Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。
MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文 参考訳(メタデータ) (2025-11-13T13:21:09Z) - Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach [2.894273842598117]
本稿では,視覚言語モデル(VLM)に基づく画像音楽(I2M)フレームワークを提案する。
具体的には、ABC表記を用いてテキストと音楽のモダリティをブリッジし、VLMが自然言語を使って音楽を生成する。
次に,マルチモーダル検索・拡張生成(RAG)と自己精製技術を適用し,VLMが外部トレーニングなしで高品質な楽曲を制作できるようにする。
論文 参考訳(メタデータ) (2025-09-26T14:07:29Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Interpreting Graphic Notation with MusicLDM: An AI Improvisation of Cornelius Cardew's Treatise [4.9485163144728235]
本研究はコーネリアス・カーデューの論文に触発された音楽の作曲と即興の手法を提示する。
OpenAIのChatGPTを利用して、論文の抽象的な視覚要素を解釈することにより、これらのグラフィカル画像を記述的テキストプロンプトに変換する。
これらのプロンプトは、音楽生成用に事前訓練された潜在拡散モデルであるMusicLDMに入力される。
論文 参考訳(メタデータ) (2024-12-12T05:08:36Z) - Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings [10.302353984541497]
本研究では,視覚芸術で表現される感情に共鳴する音楽を生成するモデルを開発した。
コーディネートアートと音楽データの不足に対処するため、私たちはEmotion Painting Musicデータセットをキュレートした。
我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
論文 参考訳(メタデータ) (2024-09-12T08:19:25Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Mozart's Touch: A Lightweight Multi-modal Music Generation Framework Based on Pre-Trained Large Models [9.311353871322325]
Mozart's Touchは、画像、ビデオ、テキストなどのクロスプラットフォーム入力と整合した音楽を生成することができるフレームワークである。
従来のエンド・ツー・エンドの手法とは異なり、モーツァルト・タッチはLPMを使って音楽生成モデルの訓練や微調整を必要とせず、視覚要素を正確に解釈する。
論文 参考訳(メタデータ) (2024-05-05T03:15:52Z) - CreativeSynth: Cross-Art-Attention for Artistic Image Synthesis with Multimodal Diffusion [73.08710648258985]
レイアウト、視点、形状、意味といった重要な絵の属性は、しばしばスタイル転送によって伝達され、表現されない。
大規模な事前訓練された画像生成モデルは、大量の高品質な画像を合成できることを実証している。
我々の主要なアイデアは、スタイルを現実の世界に移すのではなく、多モーダルな意味情報を合成ガイドとしてアートに組み込むことである。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。