論文の概要: V2Meow: Meowing to the Visual Beat via Video-to-Music Generation
- arxiv url: http://arxiv.org/abs/2305.06594v2
- Date: Thu, 22 Feb 2024 05:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 19:12:34.419266
- Title: V2Meow: Meowing to the Visual Beat via Video-to-Music Generation
- Title(参考訳): V2Meow:ビデオから音楽を再生するビジュアルビート
- Authors: Kun Su, Judith Yue Li, Qingqing Huang, Dima Kuzmin, Joonseok Lee,
Chris Donahue, Fei Sha, Aren Jansen, Yu Wang, Mauro Verzetti, Timo I. Denk
- Abstract要約: V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。
ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
- 参考スコア(独自算出の注目度): 47.076283429992664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-to-music generation demands both a temporally localized high-quality
listening experience and globally aligned video-acoustic signatures. While
recent music generation models excel at the former through advanced audio
codecs, the exploration of video-acoustic signatures has been confined to
specific visual scenarios. In contrast, our research confronts the challenge of
learning globally aligned signatures between video and music directly from
paired music and videos, without explicitly modeling domain-specific rhythmic
or semantic relationships. We propose V2Meow, a video-to-music generation
system capable of producing high-quality music audio for a diverse range of
video input types using a multi-stage autoregressive model. Trained on 5k hours
of music audio clips paired with video frames mined from in-the-wild music
videos, V2Meow is competitive with previous domain-specific models when
evaluated in a zero-shot manner. It synthesizes high-fidelity music audio
waveforms solely by conditioning on pre-trained general-purpose visual features
extracted from video frames, with optional style control via text prompts.
Through both qualitative and quantitative evaluations, we demonstrate that our
model outperforms various existing music generation systems in terms of
visual-audio correspondence and audio quality. Music samples are available at
tinyurl.com/v2meow.
- Abstract(参考訳): ビデオから音楽への生成は、時間的に局所化された高品質な聴取体験と、グローバルに整列したビデオ音響署名の両方を要求する。
最近の音楽生成モデルは前者より高度なオーディオコーデックにより優れているが、ビデオ音響シグネチャの探索は特定の視覚シナリオに限定されている。
対照的に我々の研究は、ドメイン固有のリズミカルな関係やセマンティックな関係を明示的にモデル化することなく、ペア音楽やビデオから直接ビデオと音楽のシグネチャを世界規模で学習するという課題に直面している。
V2Meowは,多段階自己回帰モデルを用いて,多種多様なビデオ入力タイプに対して高品質な音楽オーディオを生成できる映像合成システムである。
V2Meowは5K時間分のオーディオクリップと、Wildのミュージックビデオから抽出したビデオフレームをペアリングして訓練され、ゼロショットで評価された場合、従来のドメイン固有のモデルと競合する。
ビデオフレームから抽出した訓練済み汎用視覚特徴を条件付け、テキストプロンプトによる任意のスタイル制御により、高忠実度音楽オーディオ波形を合成する。
定性評価と定量的評価の両面から,我々のモデルは,視覚と音響の対応や音質の観点から,既存の音楽生成システムよりも優れていることを示す。
音楽サンプルは littleurl.com/v2meow で入手できる。
関連論文リスト
- VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。
我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。
新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文 参考訳(メタデータ) (2024-09-11T17:56:48Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。
生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。
実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-23T16:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。