論文の概要: Text-based Talking Video Editing with Cascaded Conditional Diffusion
- arxiv url: http://arxiv.org/abs/2407.14841v1
- Date: Sat, 20 Jul 2024 10:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 20:42:12.721358
- Title: Text-based Talking Video Editing with Cascaded Conditional Diffusion
- Title(参考訳): Cascaded Conditional Diffusion を用いたテキストベース音声編集
- Authors: Bo Han, Heqing Zou, Haoyang Li, Guangcong Wang, Chng Eng Siong,
- Abstract要約: テキストベースのトーキングヘッドビデオ編集は、音声ビデオのセグメントを効率的に挿入、削除、置換することを目的としている。
これまでの作業では、会話ビデオのトレーニングデータの数分と、カスタマイズされた会話ビデオ編集のための高価なテストタイムの最適化が必要だった。
本稿では,音声から高密度ランドマーク運動,動画への動きの2段階からなる,効率的なケースケード条件拡散に基づくフレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.194060914767896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based talking-head video editing aims to efficiently insert, delete, and substitute segments of talking videos through a user-friendly text editing approach. It is challenging because of \textbf{1)} generalizable talking-face representation, \textbf{2)} seamless audio-visual transitions, and \textbf{3)} identity-preserved talking faces. Previous works either require minutes of talking-face video training data and expensive test-time optimization for customized talking video editing or directly generate a video sequence without considering in-context information, leading to a poor generalizable representation, or incoherent transitions, or even inconsistent identity. In this paper, we propose an efficient cascaded conditional diffusion-based framework, which consists of two stages: audio to dense-landmark motion and motion to video. \textit{\textbf{In the first stage}}, we first propose a dynamic weighted in-context diffusion module to synthesize dense-landmark motions given an edited audio. \textit{\textbf{In the second stage}}, we introduce a warping-guided conditional diffusion module. The module first interpolates between the start and end frames of the editing interval to generate smooth intermediate frames. Then, with the help of the audio-to-dense motion images, these intermediate frames are warped to obtain coarse intermediate frames. Conditioned on the warped intermedia frames, a diffusion model is adopted to generate detailed and high-resolution target frames, which guarantees coherent and identity-preserved transitions. The cascaded conditional diffusion model decomposes the complex talking editing task into two flexible generation tasks, which provides a generalizable talking-face representation, seamless audio-visual transitions, and identity-preserved faces on a small dataset. Experiments show the effectiveness and superiority of the proposed method.
- Abstract(参考訳): テキストベースのトーキングヘッドビデオ編集は、ユーザフレンドリーなテキスト編集アプローチを通じて、音声ビデオのセグメントを効率的に挿入、削除、置換することを目的としている。
一般化可能な話し顔表現, シームレスな音声・視覚遷移, アイデンティティ保存された話し顔により, 難易度が高い。
それまでの作業では、会話ビデオのトレーニングデータの数分と、カスタマイズされた音声ビデオ編集のための高価なテストタイムの最適化が必要であったり、コンテキスト内情報を考慮せずにビデオシーケンスを直接生成できたり、一般化不可能な表現や一貫性のない遷移、さらには一貫性のないアイデンティティさえも必要だった。
本稿では,高密度ランドマークの動きと映像への動きの2段階からなる,効率的なケースケード型条件拡散に基づくフレームワークを提案する。
In the first stage, we propose a dynamic weighted in-context diffusion module to synthesis dense-landmark motions given a editing audio。
第2段では、ワーピング誘導条件拡散モジュールを導入します。
モジュールは、まず編集間隔の開始フレームと終了フレームの間に補間し、スムーズな中間フレームを生成する。
そして、オーディオ・トゥ・ディエンス・モーション・イメージの助けを借りて、これらの中間フレームをワープして粗い中間フレームを得る。
ワープされた中間フレームに条件付きで設定された拡散モデルを用いて、コヒーレントかつアイデンティティ保存された遷移を保証する詳細かつ高解像度なターゲットフレームを生成する。
ケースケード条件付き拡散モデルは、複雑な会話編集タスクを2つのフレキシブルな生成タスクに分解する。
提案手法の有効性と優位性を示す実験を行った。
関連論文リスト
- TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation [4.019144083959918]
TANGO(Tango)は、音声による体温映像を生成するためのフレームワークである。
TANGOは、わずか数分間のシングルスピーカー参照ビデオから、ボディジェスチャーを同期させた高忠実度ビデオを生成する。
論文 参考訳(メタデータ) (2024-10-05T16:30:46Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance [13.050998759819933]
OpFlowTalkerは、直接画像予測ではなく、音声入力から予測される光フロー変化を利用する新しい手法である。
画像の遷移を円滑にし、変更をセマンティックコンテンツと整合させる。
また,全顔と唇の動きを調節する光フロー同期モジュールを開発した。
論文 参考訳(メタデータ) (2024-05-23T15:42:34Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - FLATTEN: optical FLow-guided ATTENtion for consistent text-to-video
editing [65.60744699017202]
拡散モデルのU-Netにおける注目モジュールに光フローを導入し,テキスト対ビデオ編集の不整合問題に対処する。
提案手法であるFLATTENでは,異なるフレームにまたがる同一フローパス上のパッチを適用して,アテンションモジュール内の相互にアテンションする。
既存のテキスト・ビデオ編集ベンチマークの結果から,提案手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-10-09T17:59:53Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。