論文の概要: Lets Play Music: Audio-driven Performance Video Generation
- arxiv url: http://arxiv.org/abs/2011.02631v1
- Date: Thu, 5 Nov 2020 03:13:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 12:08:03.493025
- Title: Lets Play Music: Audio-driven Performance Video Generation
- Title(参考訳): Lets Play Music:オーディオによるパフォーマンスビデオ生成
- Authors: Hao Zhu, Yi Li, Feixia Zhu, Aihua Zheng, Ran He
- Abstract要約: オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
- 参考スコア(独自算出の注目度): 58.77609661515749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new task named Audio-driven Per-formance Video Generation
(APVG), which aims to synthesizethe video of a person playing a certain
instrument guided bya given music audio clip. It is a challenging task to
gener-ate the high-dimensional temporal consistent videos from low-dimensional
audio modality. In this paper, we propose a multi-staged framework to achieve
this new task to generate realisticand synchronized performance video from
given music. Firstly,we provide both global appearance and local spatial
informationby generating the coarse videos and keypoints of body and handsfrom
a given music respectively. Then, we propose to transformthe generated
keypoints to heatmap via a differentiable spacetransformer, since the heatmap
offers more spatial informationbut is harder to generate directly from audio.
Finally, wepropose a Structured Temporal UNet (STU) to extract bothintra-frame
structured information and inter-frame temporalconsistency. They are obtained
via graph-based structure module,and CNN-GRU based high-level temporal module
respectively forfinal video generation. Comprehensive experiments validate
theeffectiveness of our proposed framework.
- Abstract(参考訳): そこで我々は,特定の楽器を聴く人の映像を与えられたオーディオクリップで合成することを目的とした,APVG(Audio-driven Per-formance Video Generation)というタスクを提案する。
低次元オーディオモダリティから高次元の時間整合ビデオを生成するのは難しい課題である。
本稿では,この新たな課題を実現するために,与えられた音楽から現実的かつ同期的な演奏映像を生成するマルチステージ・フレームワークを提案する。
まず,各楽曲から粗い映像とキーポイントを生成することで,グローバルな外観と局所的な空間情報の両方を提供する。
そこで本研究では,生成したキーポイントを,より空間的な情報を提供するが音声から直接生成することが困難であるため,異種空間変換器を用いてヒートマップに変換することを提案する。
最後に、フレーム間構造化情報とフレーム間時間一貫性を抽出する構造化時間UNet(STU)を提案する。
それらはグラフベースの構造モジュールとCNN-GRUベースの高レベル時間モジュールによってそれぞれ得られる。
総合的な実験により,提案手法の有効性が検証された。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Video Background Music Generation: Dataset, Method and Evaluation [31.15901120245794]
本稿では,ビデオ背景音楽生成のためのデータセット,ベンチマークモデル,評価指標を含む完全なレシピを提案する。
様々な音楽アノテーションを備えたビデオおよびシンボリック音楽データセットであるSymMVについて述べる。
また,V-MusProdというビデオバックグラウンド音楽生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T08:39:48Z) - Sound-Guided Semantic Video Generation [15.225598817462478]
本稿では,マルチモーダル(音像文)埋め込み空間を活用することで,リアルな映像を生成するフレームワークを提案する。
音はシーンの時間的文脈を提供するので、我々のフレームワークは音と意味的に整合したビデオを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-20T07:33:10Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z) - Tr\"aumerAI: Dreaming Music with StyleGAN [2.578242050187029]
本稿では, ディープ・ミュージックの埋め込みをスタイルGANの埋め込みに直接マッピングするニューラル・ミュージック・ビジュアライザーを提案する。
アノテータは10秒の100曲のクリップを聴き、StyleGANが生成した例の中で音楽に合ったイメージを選択した。
生成した例は、音声と映像のマッピングが、あるレベルのセグメント内類似性とセグメント間異同を生じさせることを示している。
論文 参考訳(メタデータ) (2021-02-09T07:04:22Z) - Audeo: Audio Generation for a Silent Performance Video [17.705770346082023]
本稿では,ピアノを弾くミュージシャンの入力ビデオフレームとして,そのビデオのための音楽を生成する新しいシステムを提案する。
本研究の主な目的は、このような変換の妥当性を探求し、視覚事象と音の関連性を持つための手がかりや構成要素を特定することである。
論文 参考訳(メタデータ) (2020-06-23T00:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。