論文の概要: MusiScene: Leveraging MU-LLaMA for Scene Imagination and Enhanced Video Background Music Generation
- arxiv url: http://arxiv.org/abs/2507.05894v1
- Date: Tue, 08 Jul 2025 11:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.947224
- Title: MusiScene: Leveraging MU-LLaMA for Scene Imagination and Enhanced Video Background Music Generation
- Title(参考訳): MusiScene: MU-LLaMAをシーンイマジネーションとビデオバックグラウンド音楽生成に活用
- Authors: Fathinah Izzati, Xinyue Li, Yuxuan Wu, Gus Xia,
- Abstract要約: 本稿では、MU-LLaMAのような音楽言語モデルが、音楽シーンイマジネーション(MSI)と呼ばれる類似のタスクを実行できるかどうかを考察する。
MusiSceneは、各曲を補完するシーンを想像するための音楽キャプションモデルである。
生成したMSIキャプションを利用して、テキストからビデオ背景音楽生成(VBMG)を強化する。
- 参考スコア(独自算出の注目度): 6.934175033087291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can imagine various atmospheres and settings when listening to music, envisioning movie scenes that complement each piece. For example, slow, melancholic music might evoke scenes of heartbreak, while upbeat melodies suggest celebration. This paper explores whether a Music Language Model, e.g. MU-LLaMA, can perform a similar task, called Music Scene Imagination (MSI), which requires cross-modal information from video and music to train. To improve upon existing music captioning models which focusing solely on musical elements, we introduce MusiScene, a music captioning model designed to imagine scenes that complement each music. In this paper, (1) we construct a large-scale video-audio caption dataset with 3,371 pairs, (2) we finetune Music Understanding LLaMA for the MSI task to create MusiScene, and (3) we conduct comprehensive evaluations and prove that our MusiScene is more capable of generating contextually relevant captions compared to MU-LLaMA. We leverage the generated MSI captions to enhance Video Background Music Generation (VBMG) from text.
- Abstract(参考訳): 人間は音楽を聴くときに様々な雰囲気や環境を想像し、各作品を補完する映画のシーンを想像することができる。
例えば、遅いメランコリック音楽はハートブレイクのシーンを誘発し、アップビート・メロディーはお祝いを示唆する。
本稿では,音楽言語モデル(例えばMU-LLaMA)が,映像や音楽のクロスモーダルな情報を必要とする音楽シーン・イマジネーション(MSI)という,類似のタスクを遂行できるかどうかを考察する。
音楽要素のみに焦点をあてた既存の音楽キャプションモデルを改善するため,各楽曲を補完するシーンを想像するための音楽キャプションモデルであるMusiSceneを紹介した。
本稿では,(1)3,371対の大規模ビデオ・オーディオ・キャプションデータセットを構築し,(2)MSIタスクのための音楽理解LLaMAを微調整し,(3)包括的な評価を行い,MU-LLaMAよりも文脈的に関係のあるキャプションを生成することができることを示す。
生成したMSIキャプションを利用して、テキストからビデオ背景音楽生成(VBMG)を強化する。
関連論文リスト
- MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response [42.73982391253872]
MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。
広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。
音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
論文 参考訳(メタデータ) (2023-09-15T19:31:40Z) - Music Understanding LLaMA: Advancing Text-to-Music Generation with
Question Answering and Captioning [37.76488341368786]
テキスト・ツー・ミュージック・ジェネレーション(T2M-Gen)は、自然言語キャプションを備えた大規模公開楽曲データセットが不足しているため、大きな障害に直面している。
音楽関連質問に答え、音楽ファイルのキャプションを生成することができる音楽理解LLaMA(MU-LLaMA)を提案する。
本稿では,既存の音声キャプションデータセットから質問応答ペアを生成する手法を提案し,MusicQAデータセットを紹介する。
論文 参考訳(メタデータ) (2023-08-22T08:43:33Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。