論文の概要: Vision-to-Music Generation: A Survey
- arxiv url: http://arxiv.org/abs/2503.21254v1
- Date: Thu, 27 Mar 2025 08:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:43.762188
- Title: Vision-to-Music Generation: A Survey
- Title(参考訳): ヴィジュアル・ツー・ミュージック・ジェネレーション:サーベイ
- Authors: Zhaokai Wang, Chenxi Bao, Le Zhuo, Jingrui Han, Yang Yue, Yihong Tang, Victor Shea-Jay Huang, Yue Liao,
- Abstract要約: ヴィジュアル・ツー・ミュージック・ジェネレーションは、映画スコアリング、ショートビデオ作成、ダンス音楽の合成といった分野における大きな応用可能性を示している。
ヴィジュアル・ツー・ミュージックの研究は、複雑な内部構造とビデオとの動的関係のモデル化が難しいため、まだ初期段階にある。
既存の調査では、ヴィジュアル・ツー・ミュージックに関する包括的な議論をすることなく、一般的な音楽生成に焦点を当てている。
- 参考スコア(独自算出の注目度): 10.993775589904251
- License:
- Abstract: Vision-to-music Generation, including video-to-music and image-to-music tasks, is a significant branch of multimodal artificial intelligence demonstrating vast application prospects in fields such as film scoring, short video creation, and dance music synthesis. However, compared to the rapid development of modalities like text and images, research in vision-to-music is still in its preliminary stage due to its complex internal structure and the difficulty of modeling dynamic relationships with video. Existing surveys focus on general music generation without comprehensive discussion on vision-to-music. In this paper, we systematically review the research progress in the field of vision-to-music generation. We first analyze the technical characteristics and core challenges for three input types: general videos, human movement videos, and images, as well as two output types of symbolic music and audio music. We then summarize the existing methodologies on vision-to-music generation from the architecture perspective. A detailed review of common datasets and evaluation metrics is provided. Finally, we discuss current challenges and promising directions for future research. We hope our survey can inspire further innovation in vision-to-music generation and the broader field of multimodal generation in academic research and industrial applications. To follow latest works and foster further innovation in this field, we are continuously maintaining a GitHub repository at https://github.com/wzk1015/Awesome-Vision-to-Music-Generation.
- Abstract(参考訳): ヴィジュアル・ツー・ミュージック・ジェネレーション(Vision-to-music Generation)は、映画スコアリング、ショート・ビデオ作成、ダンス・ミュージック・シンセサイザーといった分野における膨大な応用可能性を示すマルチモーダル・人工知能の重要な分野である。
しかし、テキストや画像などのモダリティの急速な発展と比べ、複雑な内部構造と動画との動的関係のモデル化が難しいため、視覚音楽の研究はまだ初期段階にある。
既存の調査では、ヴィジュアル・ツー・ミュージックに関する包括的な議論をすることなく、一般的な音楽生成に焦点を当てている。
本稿では,視覚・音楽生成分野における研究の進歩を体系的にレビューする。
まず,3つの入力タイプ – 一般的なビデオ,ヒトの動きビデオ,イメージ,および2種類のシンボル音楽とオーディオ音楽 – の技術的特徴とコア課題を分析した。
次に、アーキテクチャの観点から、視覚から音楽への生成に関する既存の方法論を要約する。
一般的なデータセットと評価指標の詳細なレビューが提供される。
最後に,今後の研究の課題と今後の方向性について論じる。
我々は,学術研究と産業応用におけるビジョン・ツー・ミュージック・ジェネレーションのさらなる革新と,マルチモーダル・ジェネレーションの幅広い分野に刺激を与えてくれることを願っている。
最新の作業に従い、この分野のさらなるイノベーションを促進するために、GitHubリポジトリをhttps://github.com/wzk1015/Awesome-Vision-to-Music-Generationで継続的にメンテナンスしています。
関連論文リスト
- A Comprehensive Survey on Generative AI for Video-to-Music Generation [15.575851379886952]
本稿では、深層生成AI技術を用いて、映像から音楽への生成を包括的に検討する。
視覚的特徴抽出、音楽生成フレームワーク、条件付け機構の3つの重要なコンポーネントに焦点を当てる。
論文 参考訳(メタデータ) (2025-02-18T03:18:54Z) - GVMGen: A General Video-to-Music Generation Model with Hierarchical Attentions [13.9134271174972]
本稿では,映像入力に高関連音楽を生成するための一般ビデオ・音楽生成モデル(GVMGen)を提案する。
本モデルでは,映像特徴を空間次元と時間次元の両方で抽出・アライメントするために階層的注意を用いた。
提案手法は,ゼロショットシナリオにおいても,異なるビデオ入力からマルチスタイルの楽曲を生成することが可能である。
論文 参考訳(メタデータ) (2025-01-17T06:30:11Z) - A Survey of Foundation Models for Music Understanding [60.83532699497597]
この研究は、AI技術と音楽理解の交差に関する初期のレビューの1つである。
音楽理解能力に関して,近年の大規模音楽基盤モデルについて検討,分析,検証を行った。
論文 参考訳(メタデータ) (2024-09-15T03:34:14Z) - Prevailing Research Areas for Music AI in the Era of Foundation Models [8.067636023395236]
過去数年間、生成的音楽AIアプリケーションが急増している。
音楽データセットの現状とその限界について論じる。
複数のモダリティへの拡張とアーティストのワークフローとの統合に向けて,これらの生成モデルの応用を強調した。
論文 参考訳(メタデータ) (2024-09-14T09:06:43Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - A Comprehensive Survey on Deep Music Generation: Multi-level
Representations, Algorithms, Evaluations, and Future Directions [10.179835761549471]
本稿では,深層学習を用いた音楽生成レベルの違いによる様々な作曲課題の概要について述べる。
さらに,多様なタスクに適したデータセットを要約し,音楽表現,評価方法,および異なるレベルの課題について考察し,最後にいくつかの今後の方向性を指摘する。
論文 参考訳(メタデータ) (2020-11-13T08:01:20Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。