論文の概要: TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation
- arxiv url: http://arxiv.org/abs/2410.04221v1
- Date: Sat, 5 Oct 2024 16:30:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 09:11:41.499896
- Title: TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation
- Title(参考訳): TANGO:階層型オーディオモーション埋め込みと拡散補間による共同音声ジェスチャービデオ再生
- Authors: Haiyang Liu, Xingchao Yang, Tomoya Akiyama, Yuantian Huang, Qiaoge Li, Shigeru Kuriyama, Takafumi Taketomi,
- Abstract要約: TANGO(Tango)は、音声による体温映像を生成するためのフレームワークである。
TANGOは、わずか数分間のシングルスピーカー参照ビデオから、ボディジェスチャーを同期させた高忠実度ビデオを生成する。
- 参考スコア(独自算出の注目度): 4.019144083959918
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present TANGO, a framework for generating co-speech body-gesture videos. Given a few-minute, single-speaker reference video and target speech audio, TANGO produces high-fidelity videos with synchronized body gestures. TANGO builds on Gesture Video Reenactment (GVR), which splits and retrieves video clips using a directed graph structure - representing video frames as nodes and valid transitions as edges. We address two key limitations of GVR: audio-motion misalignment and visual artifacts in GAN-generated transition frames. In particular, (i) we propose retrieving gestures using latent feature distance to improve cross-modal alignment. To ensure the latent features could effectively model the relationship between speech audio and gesture motion, we implement a hierarchical joint embedding space (AuMoCLIP); (ii) we introduce the diffusion-based model to generate high-quality transition frames. Our diffusion model, Appearance Consistent Interpolation (ACInterp), is built upon AnimateAnyone and includes a reference motion module and homography background flow to preserve appearance consistency between generated and reference videos. By integrating these components into the graph-based retrieval framework, TANGO reliably produces realistic, audio-synchronized videos and outperforms all existing generative and retrieval methods. Our codes and pretrained models are available: \url{https://pantomatrix.github.io/TANGO/}
- Abstract(参考訳): TANGO(Tango)は、音声による体温映像を生成するためのフレームワークである。
数分間の単一話者参照ビデオとターゲット音声が与えられたTANGOは、ボディジェスチャーを同期させた高忠実度ビデオを生成する。
TANGOはGesture Video Reenactment(GVR)上に構築されており、ビデオフレームをノードとして表現し、エッジとして有効な遷移を表現して、有向グラフ構造を使用してビデオクリップを分割して検索する。
我々は、GVRの2つの重要な制限、すなわち、GAN生成トランジションフレームにおけるオーディオモーションのずれと視覚的アーティファクトに対処する。
特に
i) モーダルアライメントを改善するために, 遅延特徴距離を用いたジェスチャーの検索を提案する。
音声音声とジェスチャー動作の関係を効果的にモデル化するために,階層的な関節埋め込み空間(AuMoCLIP)を実装した。
(II) 拡散モデルを導入し, 高品質な遷移フレームを生成する。
我々の拡散モデルであるACInterpは、AnimateAnyone上に構築されており、生成されたビデオと参照ビデオ間の外観整合性を維持するために、参照モーションモジュールとホモグラフィ背景フローを含む。
これらのコンポーネントをグラフベースの検索フレームワークに統合することにより、TANGOはリアルでオーディオ同期化された動画を確実に生成し、既存の生成および検索方法よりも優れている。
我々のコードと事前訓練済みモデルは以下の通りである。
関連論文リスト
- Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Audio-driven Neural Gesture Reenactment with Video Motion Graphs [30.449816206864632]
本稿では,ターゲット音声と一致するジェスチャーで高品質な映像を再現する手法を提案する。
提案手法の鍵となる考え方は,クリップ間の有効な遷移を符号化した新しい動画モーショングラフを通じて,参照ビデオからクリップを分割,再組み立てすることである。
異なるクリップをシームレスに接続するために、2つのクリップの間に縫合されたフレームの周囲にビデオフレームを合成するポーズ対応ビデオブレンディングネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-23T14:02:57Z) - Sound-Guided Semantic Video Generation [15.225598817462478]
本稿では,マルチモーダル(音像文)埋め込み空間を活用することで,リアルな映像を生成するフレームワークを提案する。
音はシーンの時間的文脈を提供するので、我々のフレームワークは音と意味的に整合したビデオを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-20T07:33:10Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。