論文の概要: Sound-Guided Semantic Video Generation
- arxiv url: http://arxiv.org/abs/2204.09273v2
- Date: Thu, 21 Apr 2022 02:13:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 12:02:20.096520
- Title: Sound-Guided Semantic Video Generation
- Title(参考訳): 音響誘導セマンティックビデオ生成
- Authors: Seung Hyun Lee, Gyeongrok Oh, Wonmin Byeon, Jihyun Bae, Chanyoung Kim,
Won Jeong Ryoo, Sang Ho Yoon, Jinkyu Kim, Sangpil Kim
- Abstract要約: 本稿では,マルチモーダル(音像文)埋め込み空間を活用することで,リアルな映像を生成するフレームワークを提案する。
音はシーンの時間的文脈を提供するので、我々のフレームワークは音と意味的に整合したビデオを生成することを学習する。
- 参考スコア(独自算出の注目度): 15.225598817462478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent success in StyleGAN demonstrates that pre-trained StyleGAN latent
space is useful for realistic video generation. However, the generated motion
in the video is usually not semantically meaningful due to the difficulty of
determining the direction and magnitude in the StyleGAN latent space. In this
paper, we propose a framework to generate realistic videos by leveraging
multimodal (sound-image-text) embedding space. As sound provides the temporal
contexts of the scene, our framework learns to generate a video that is
semantically consistent with sound. First, our sound inversion module maps the
audio directly into the StyleGAN latent space. We then incorporate the
CLIP-based multimodal embedding space to further provide the audio-visual
relationships. Finally, the proposed frame generator learns to find the
trajectory in the latent space which is coherent with the corresponding sound
and generates a video in a hierarchical manner. We provide the new
high-resolution landscape video dataset (audio-visual pair) for the
sound-guided video generation task. The experiments show that our model
outperforms the state-of-the-art methods in terms of video quality. We further
show several applications including image and video editing to verify the
effectiveness of our method.
- Abstract(参考訳): StyleGANの最近の成功は、事前訓練されたStyleGAN潜伏空間がリアルなビデオ生成に有用であることを示している。
しかし、ビデオ内の生成された動きは、StyleGAN潜伏空間の方向と大きさを決定するのが難しいため、意味的に意味がない。
本稿では,マルチモーダル(音声テキスト)埋め込み空間を活用し,リアルな映像を生成する枠組みを提案する。
サウンドがシーンのテンポラリなコンテキストを提供すると、フレームワークは音と意味的に一致するビデオを生成することを学びます。
まず,我々の音響インバージョンモジュールは,音声を直接StyleGAN潜在空間にマッピングする。
次に、CLIPベースのマルチモーダル埋め込み空間を組み込んで、オーディオと視覚の関係をさらに深める。
最後に、提案するフレーム生成器は、対応する音と整合する潜在空間における軌跡を学習し、階層的に映像を生成する。
音声誘導映像生成タスク用に,新しい高分解能ランドスケープビデオデータセット (audio-visual pair) を提供する。
実験の結果,本モデルは映像品質の面で最先端の手法よりも優れていた。
さらに,本手法の有効性を検証するために,映像編集や映像編集などいくつかの応用例を示す。
関連論文リスト
- TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation [4.019144083959918]
TANGO(Tango)は、音声による体温映像を生成するためのフレームワークである。
TANGOは、わずか数分間のシングルスピーカー参照ビデオから、ボディジェスチャーを同期させた高忠実度ビデオを生成する。
論文 参考訳(メタデータ) (2024-10-05T16:30:46Z) - Context-aware Talking Face Video Generation [30.49058027339904]
顔画像生成の斬新で実践的な事例を考察する。
顔のランドマークを制御信号にして、運転中の音声、会話コンテキスト、生成ビデオのブリッジを作ります。
実験により,提案手法の他のベースラインに対する利点を,音声・ビデオ同期,映像の忠実度,フレームの整合性の観点から検証した。
論文 参考訳(メタデータ) (2024-02-28T06:25:50Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Audio-driven Neural Gesture Reenactment with Video Motion Graphs [30.449816206864632]
本稿では,ターゲット音声と一致するジェスチャーで高品質な映像を再現する手法を提案する。
提案手法の鍵となる考え方は,クリップ間の有効な遷移を符号化した新しい動画モーショングラフを通じて,参照ビデオからクリップを分割,再組み立てすることである。
異なるクリップをシームレスに接続するために、2つのクリップの間に縫合されたフレームの周囲にビデオフレームを合成するポーズ対応ビデオブレンディングネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-23T14:02:57Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。