論文の概要: Lets Play Music: Audio-driven Performance Video Generation
- arxiv url: http://arxiv.org/abs/2011.02631v1
- Date: Thu, 5 Nov 2020 03:13:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 12:08:03.493025
- Title: Lets Play Music: Audio-driven Performance Video Generation
- Title(参考訳): Lets Play Music:オーディオによるパフォーマンスビデオ生成
- Authors: Hao Zhu, Yi Li, Feixia Zhu, Aihua Zheng, Ran He
- Abstract要約: オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
- 参考スコア(独自算出の注目度): 58.77609661515749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new task named Audio-driven Per-formance Video Generation
(APVG), which aims to synthesizethe video of a person playing a certain
instrument guided bya given music audio clip. It is a challenging task to
gener-ate the high-dimensional temporal consistent videos from low-dimensional
audio modality. In this paper, we propose a multi-staged framework to achieve
this new task to generate realisticand synchronized performance video from
given music. Firstly,we provide both global appearance and local spatial
informationby generating the coarse videos and keypoints of body and handsfrom
a given music respectively. Then, we propose to transformthe generated
keypoints to heatmap via a differentiable spacetransformer, since the heatmap
offers more spatial informationbut is harder to generate directly from audio.
Finally, wepropose a Structured Temporal UNet (STU) to extract bothintra-frame
structured information and inter-frame temporalconsistency. They are obtained
via graph-based structure module,and CNN-GRU based high-level temporal module
respectively forfinal video generation. Comprehensive experiments validate
theeffectiveness of our proposed framework.
- Abstract(参考訳): そこで我々は,特定の楽器を聴く人の映像を与えられたオーディオクリップで合成することを目的とした,APVG(Audio-driven Per-formance Video Generation)というタスクを提案する。
低次元オーディオモダリティから高次元の時間整合ビデオを生成するのは難しい課題である。
本稿では,この新たな課題を実現するために,与えられた音楽から現実的かつ同期的な演奏映像を生成するマルチステージ・フレームワークを提案する。
まず,各楽曲から粗い映像とキーポイントを生成することで,グローバルな外観と局所的な空間情報の両方を提供する。
そこで本研究では,生成したキーポイントを,より空間的な情報を提供するが音声から直接生成することが困難であるため,異種空間変換器を用いてヒートマップに変換することを提案する。
最後に、フレーム間構造化情報とフレーム間時間一貫性を抽出する構造化時間UNet(STU)を提案する。
それらはグラフベースの構造モジュールとCNN-GRUベースの高レベル時間モジュールによってそれぞれ得られる。
総合的な実験により,提案手法の有効性が検証された。
関連論文リスト
- MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation [4.019144083959918]
TANGO(Tango)は、音声による体温映像を生成するためのフレームワークである。
TANGOは、わずか数分間のシングルスピーカー参照ビデオから、ボディジェスチャーを同期させた高忠実度ビデオを生成する。
論文 参考訳(メタデータ) (2024-10-05T16:30:46Z) - VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。
我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。
新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文 参考訳(メタデータ) (2024-09-11T17:56:48Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Sound-Guided Semantic Video Generation [15.225598817462478]
本稿では,マルチモーダル(音像文)埋め込み空間を活用することで,リアルな映像を生成するフレームワークを提案する。
音はシーンの時間的文脈を提供するので、我々のフレームワークは音と意味的に整合したビデオを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-20T07:33:10Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。