論文の概要: Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach
- arxiv url: http://arxiv.org/abs/2509.22378v1
- Date: Fri, 26 Sep 2025 14:07:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.485147
- Title: Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach
- Title(参考訳): Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach
- Authors: Zijian Zhao, Dian Jin, Zijing Zhou,
- Abstract要約: 本稿では,視覚言語モデル(VLM)に基づく画像音楽(I2M)フレームワークを提案する。
具体的には、ABC表記を用いてテキストと音楽のモダリティをブリッジし、VLMが自然言語を使って音楽を生成する。
次に,マルチモーダル検索・拡張生成(RAG)と自己精製技術を適用し,VLMが外部トレーニングなしで高品質な楽曲を制作できるようにする。
- 参考スコア(独自算出の注目度): 2.894273842598117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Image-to-Music (I2M) generation has garnered significant attention, with potential applications in fields such as gaming, advertising, and multi-modal art creation. However, due to the ambiguous and subjective nature of I2M tasks, most end-to-end methods lack interpretability, leaving users puzzled about the generation results. Even methods based on emotion mapping face controversy, as emotion represents only a singular aspect of art. Additionally, most learning-based methods require substantial computational resources and large datasets for training, hindering accessibility for common users. To address these challenges, we propose the first Vision Language Model (VLM)-based I2M framework that offers high interpretability and low computational cost. Specifically, we utilize ABC notation to bridge the text and music modalities, enabling the VLM to generate music using natural language. We then apply multi-modal Retrieval-Augmented Generation (RAG) and self-refinement techniques to allow the VLM to produce high-quality music without external training. Furthermore, we leverage the generated motivations in text and the attention maps from the VLM to provide explanations for the generated results in both text and image modalities. To validate our method, we conduct both human studies and machine evaluations, where our method outperforms others in terms of music quality and music-image consistency, indicating promising results. Our code is available at https://github.com/RS2002/Image2Music .
- Abstract(参考訳): 近年,イメージ・ツー・ミュージック(I2M)世代が注目され,ゲームや広告,マルチモーダルアートなどの分野への応用が期待されている。
しかし、I2Mタスクの不明瞭で主観的な性質のため、ほとんどのエンドツーエンドメソッドは解釈性に欠けており、ユーザは生成結果に疑問を呈している。
感情マッピングに基づく方法でさえ、感情が芸術の特異な側面を表すため、論争に直面している。
さらに、ほとんどの学習ベースの手法は、トレーニングのためにかなりの計算資源と大きなデータセットを必要とし、一般的なユーザにとってアクセシビリティを妨げる。
これらの課題に対処するため、我々は、高い解釈可能性と低計算コストを提供する最初のビジョン言語モデル(VLM)ベースのI2Mフレームワークを提案する。
具体的には、ABC表記を用いてテキストと音楽のモダリティをブリッジし、VLMが自然言語を使って音楽を生成する。
次に,マルチモーダル検索・拡張生成(RAG)と自己精製技術を適用し,VLMが外部トレーニングなしで高品質な楽曲を制作できるようにする。
さらに,VLMから生成したモチベーションと注意マップを利用して,テキストと画像の両モードで生成された結果の説明を行う。
提案手法の有効性を検証するため,人間の学習と機械評価の両面において,本手法は音楽の質や画像の整合性において他者よりも優れ,有望な結果を示す。
私たちのコードはhttps://github.com/RS2002/Image2Musicで利用可能です。
関連論文リスト
- TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings [10.302353984541497]
本研究では,視覚芸術で表現される感情に共鳴する音楽を生成するモデルを開発した。
コーディネートアートと音楽データの不足に対処するため、私たちはEmotion Painting Musicデータセットをキュレートした。
我々の2段階のフレームワークは、イメージを感情的内容のテキスト記述に変換し、これらの記述を音楽に変換することで、最小限のデータによる効率的な学習を容易にする。
論文 参考訳(メタデータ) (2024-09-12T08:19:25Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Mozart's Touch: A Lightweight Multi-modal Music Generation Framework Based on Pre-Trained Large Models [9.311353871322325]
Mozart's Touchは、画像、ビデオ、テキストなどのクロスプラットフォーム入力と整合した音楽を生成することができるフレームワークである。
従来のエンド・ツー・エンドの手法とは異なり、モーツァルト・タッチはLPMを使って音楽生成モデルの訓練や微調整を必要とせず、視覚要素を正確に解釈する。
論文 参考訳(メタデータ) (2024-05-05T03:15:52Z) - Towards Contrastive Learning in Music Video Domain [46.29203572184694]
我々は、オーディオとビデオのモダリティのためのデュアルエンコーダを作成し、双方向のコントラスト損失を用いてトレーニングする。
実験では、50万曲のミュージックビデオを含む業界データセットと、公開ミリオンソングデータセットを使用します。
この結果から, コントラスト的な微調整のない事前学習ネットワークは, 両タスクで評価した場合に, コントラスト的な学習手法より優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-09-01T09:08:21Z) - Tackling Vision Language Tasks Through Learning Inner Monologues [10.795616787372625]
本稿では,複雑な視覚言語問題を解くために,内部モノローグ多モード最適化(IMMO)を提案する。
IMMOは内的モノローグ過程をシミュレートする。
その結果、IMMOは推論能力と説明能力を高め、視覚モデルと言語モデルのより効果的な融合に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-08-19T10:10:49Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。