論文の概要: InverseMV: Composing Piano Scores with a Convolutional Video-Music
Transformer
- arxiv url: http://arxiv.org/abs/2112.15320v1
- Date: Fri, 31 Dec 2021 06:39:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 14:22:54.068520
- Title: InverseMV: Composing Piano Scores with a Convolutional Video-Music
Transformer
- Title(参考訳): inversemv:畳み込みビデオ音楽トランスフォーマーによるピアノ楽譜の作曲
- Authors: Chin-Tung Lin, Mu Yang
- Abstract要約: 本稿では,ビデオフレームから自動ピアノ楽譜を生成する新しいアテンションベースモデルVMTを提案する。
モデルから生成された音楽を使用することで、潜在的な著作権侵害を防ぐことができる。
我々は、ポップミュージックビデオとMIDIファイルの微調整を施した7時間以上のピアノ楽譜からなる新しいデータセットをリリースする。
- 参考スコア(独自算出の注目度): 2.157478102241537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many social media users prefer consuming content in the form of videos rather
than text. However, in order for content creators to produce videos with a high
click-through rate, much editing is needed to match the footage to the music.
This posts additional challenges for more amateur video makers. Therefore, we
propose a novel attention-based model VMT (Video-Music Transformer) that
automatically generates piano scores from video frames. Using music generated
from models also prevent potential copyright infringements that often come with
using existing music. To the best of our knowledge, there is no work besides
the proposed VMT that aims to compose music for video. Additionally, there
lacks a dataset with aligned video and symbolic music. We release a new dataset
composed of over 7 hours of piano scores with fine alignment between pop music
videos and MIDI files. We conduct experiments with human evaluation on VMT,
SeqSeq model (our baseline), and the original piano version soundtrack. VMT
achieves consistent improvements over the baseline on music smoothness and
video relevance. In particular, with the relevance scores and our case study,
our model has shown the capability of multimodality on frame-level actors'
movement for music generation. Our VMT model, along with the new dataset,
presents a promising research direction toward composing the matching
soundtrack for videos. We have released our code at
https://github.com/linchintung/VMT
- Abstract(参考訳): 多くのソーシャルメディアユーザーは、テキストではなくビデオの形でコンテンツを消費することを好む。
しかし、コンテンツ制作者が高いクリックスルー率でビデオを制作するためには、映像を音楽に合わせるために多くの編集が必要である。
これはアマチュアビデオ制作者にとってさらなる課題を提起する。
そこで本研究では,ビデオフレームからピアノ楽譜を自動的に生成する注意型モデルvmt(video-music transformer)を提案する。
モデルから生成された音楽を使用することで、しばしば既存の音楽を使用する著作権侵害を防止できる。
私たちの知る限りでは、ビデオのための音楽の作曲を目的とした提案されているvmt以外の作業はありません。
さらに、アライメントされたビデオとシンボリック音楽のデータセットが欠けている。
我々は、ポップミュージックビデオとMIDIファイルの微調整を施した7時間以上のピアノ楽譜からなる新しいデータセットをリリースする。
我々は,VMT,SeqSeqモデル(我々のベースライン),およびオリジナルのピアノバージョンサウンドトラックに対する人間評価実験を行った。
VMTは、音楽のスムーズさとビデオの関連性に基づくベースラインよりも一貫した改善を実現している。
特に,関連性スコアと事例スタディを用いて,音楽生成のためのフレームレベルのアクタの動きに対するマルチモーダリティの能力を示した。
我々のVMTモデルは、新しいデータセットとともに、ビデオのマッチングサウンドトラックを構成するための有望な研究方向を示す。
コードをhttps://github.com/linchintung/VMTでリリースしました。
関連論文リスト
- MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。
我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。
新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文 参考訳(メタデータ) (2024-09-11T17:56:48Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - V2Meow: Meowing to the Visual Beat via Video-to-Music Generation [47.076283429992664]
V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。
ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
論文 参考訳(メタデータ) (2023-05-11T06:26:41Z) - Video Background Music Generation: Dataset, Method and Evaluation [31.15901120245794]
本稿では,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを提案する。
様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。
また,V-MusProdというビデオバックグラウンド音楽生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T08:39:48Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-21T17:59:06Z) - Audeo: Audio Generation for a Silent Performance Video [17.705770346082023]
本稿では,ピアノを弾くミュージシャンの入力ビデオフレームとして,そのビデオのための音楽を生成する新しいシステムを提案する。
本研究の主な目的は、このような変換の妥当性を探求し、視覚事象と音の関連性を持つための手がかりや構成要素を特定することである。
論文 参考訳(メタデータ) (2020-06-23T00:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。