論文の概要: V2Meow: Meowing to the Visual Beat via Music Generation
- arxiv url: http://arxiv.org/abs/2305.06594v1
- Date: Thu, 11 May 2023 06:26:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 15:51:08.696550
- Title: V2Meow: Meowing to the Visual Beat via Music Generation
- Title(参考訳): V2Meow:音楽生成によるビジュアルビート
- Authors: Kun Su, Judith Yue Li, Qingqing Huang, Dima Kuzmin, Joonseok Lee,
Chris Donahue, Fei Sha, Aren Jansen, Yu Wang, Mauro Verzetti, Timo I. Denk
- Abstract要約: V2Meowは、任意のサイレントビデオクリップから抽出された事前学習された視覚的特徴にのみ調和した高忠実なオーディオ波形を合成することができる。
本モデルは,視覚・オーディオ対応と音質の両面で,既存の音楽生成システムより優れています。
- 参考スコア(独自算出の注目度): 28.979325576338475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating high quality music that complements the visual content of a video
is a challenging task. Most existing visual conditioned music generation
systems generate symbolic music data, such as MIDI files, instead of raw audio
waveform. Given the limited availability of symbolic music data, such methods
can only generate music for a few instruments or for specific types of visual
input. In this paper, we propose a novel approach called V2Meow that can
generate high-quality music audio that aligns well with the visual semantics of
a diverse range of video input types. Specifically, the proposed music
generation system is a multi-stage autoregressive model which is trained with a
number of O(100K) music audio clips paired with video frames, which are mined
from in-the-wild music videos, and no parallel symbolic music data is involved.
V2Meow is able to synthesize high-fidelity music audio waveform solely
conditioned on pre-trained visual features extracted from an arbitrary silent
video clip, and it also allows high-level control over the music style of
generation examples via supporting text prompts in addition to the video frames
conditioning. Through both qualitative and quantitative evaluations, we
demonstrate that our model outperforms several existing music generation
systems in terms of both visual-audio correspondence and audio quality.
- Abstract(参考訳): ビデオの視覚的コンテンツを補完する高品質な音楽を生成することは難しい課題だ。
既存の視覚条件付き音楽生成システムは、生の音声波形の代わりにMIDIファイルのような象徴的な音楽データを生成する。
シンボリックな音楽データの利用可能性が限られているため、そのような手法は少数の楽器や特定の種類の視覚入力に対してのみ音楽を生成することができる。
本稿では,V2Meow という新しい手法を提案する。V2Meow は,様々な種類のビデオ入力の視覚的セマンティクスとよく一致した高品質な音楽オーディオを生成できる。
提案する音楽生成システムは,多段階の自己回帰モデルであり,複数のo(100k)オーディオクリップをビデオフレームとペアリングして訓練し,その映像をイン・ザ・ワイルド・ミュージック・ビデオから抽出し,並列的なシンボリック・ミュージック・データには関与しない。
V2Meowは、任意のサイレントビデオクリップから抽出された事前訓練された視覚的特徴にのみ条件付けされた高忠実な音楽オーディオ波形を合成でき、また、ビデオフレームの条件付けに加えてテキストプロンプトによって、生成例の楽曲スタイルを高レベルに制御できる。
定性評価と定量的評価の両面から,我々のモデルは,視覚・音響対応と音質の両面で,既存の音楽生成システムよりも優れていることを示す。
関連論文リスト
- VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。
我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。
新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文 参考訳(メタデータ) (2024-09-11T17:56:48Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。
生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。
実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-23T16:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。