論文の概要: Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model
- arxiv url: http://arxiv.org/abs/2311.00968v2
- Date: Mon, 4 Mar 2024 07:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:49:25.660141
- Title: Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model
- Title(参考訳): Video2Music: Affective Multimodal Transformer Modelを用いたビデオからの適切な音楽生成
- Authors: Jaeyong Kang, Soujanya Poria, Dorien Herremans
- Abstract要約: 我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
- 参考スコア(独自算出の注目度): 32.801213106782335
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Numerous studies in the field of music generation have demonstrated
impressive performance, yet virtually no models are able to directly generate
music to match accompanying videos. In this work, we develop a generative music
AI framework, Video2Music, that can match a provided video. We first curated a
unique collection of music videos. Then, we analysed the music videos to obtain
semantic, scene offset, motion, and emotion features. These distinct features
are then employed as guiding input to our music generation model. We transcribe
the audio files into MIDI and chords, and extract features such as note density
and loudness. This results in a rich multimodal dataset, called MuVi-Sync, on
which we train a novel Affective Multimodal Transformer (AMT) model to generate
music given a video. This model includes a novel mechanism to enforce affective
similarity between video and music. Finally, post-processing is performed based
on a biGRU-based regression model to estimate note density and loudness based
on the video features. This ensures a dynamic rendering of the generated chords
with varying rhythm and volume. In a thorough experiment, we show that our
proposed framework can generate music that matches the video content in terms
of emotion. The musical quality, along with the quality of music-video matching
is confirmed in a user study. The proposed AMT model, along with the new
MuVi-Sync dataset, presents a promising step for the new task of music
generation for videos.
- Abstract(参考訳): 音楽生成の分野で多くの研究が目覚ましいパフォーマンスを示しているが、付随するビデオにマッチする音楽を直接生成できるモデルはほとんどない。
そこで本研究では,提供ビデオにマッチする生成型音楽AIフレームワークであるVideo2Musicを開発した。
私たちは最初、ユニークなミュージックビデオのコレクションをキュレートした。
次に,音楽ビデオの分析を行い,意味,シーンオフセット,動き,感情の特徴について検討した。
これらの特徴を音楽生成モデルへのインプットの導出として利用する。
音声ファイルをmidiとコードに書き起こし、音の密度やラウドネスなどの特徴を抽出する。
これにより、MuVi-Syncと呼ばれるリッチなマルチモーダルデータセットが作成され、新しいAffective Multimodal Transformer(AMT)モデルをトレーニングし、ビデオから音楽を生成する。
このモデルは、ビデオと音楽との情緒的類似性を強制する新しいメカニズムを含んでいる。
最後に、bigruに基づく回帰モデルに基づいて後処理を行い、映像特徴に基づいて音符密度とラウドネスを推定する。
これにより、異なるリズムとボリュームで生成された和音の動的レンダリングが保証される。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
ユーザ調査により、音楽とビデオのマッチングの質とともに音楽の質が確認された。
提案したAMTモデルは、新しいMuVi-Syncデータセットとともに、ビデオの音楽生成の新しいタスクのための有望なステップを提供する。
関連論文リスト
- MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。
我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。
新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文 参考訳(メタデータ) (2024-09-11T17:56:48Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Diff-BGM: A Diffusion Model for Video Background Music Generation [16.94631443719866]
ビデオと音楽に関するマルチモーダル情報を提供するために,詳細なアノテーションとショット検出を備えた高品質な音楽ビデオデータセットを提案する。
次に,音楽の多様性や音楽と映像のアライメントなど,音楽の質を評価するための評価指標を提案する。
Diff-BGMフレームワークは、ビデオの背景音楽を自動的に生成し、生成過程において異なる信号を用いて音楽の異なる側面を制御する。
論文 参考訳(メタデータ) (2024-05-20T09:48:36Z) - V2Meow: Meowing to the Visual Beat via Video-to-Music Generation [47.076283429992664]
V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。
ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
論文 参考訳(メタデータ) (2023-05-11T06:26:41Z) - Video Background Music Generation: Dataset, Method and Evaluation [31.15901120245794]
本稿では,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを提案する。
様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。
また,V-MusProdというビデオバックグラウンド音楽生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T08:39:48Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-21T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。