論文の概要: EditYourself: Audio-Driven Generation and Manipulation of Talking Head Videos with Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2601.22127v1
- Date: Thu, 29 Jan 2026 18:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.091444
- Title: EditYourself: Audio-Driven Generation and Manipulation of Talking Head Videos with Diffusion Transformers
- Title(参考訳): EditYourself:拡散変換器を用いた対話型ヘッドビデオの音声駆動生成と操作
- Authors: John Flynn, Wolfgang Paier, Dimitar Dinev, Sam Nhut Nguyen, Hayk Poghosyan, Manuel Toribio, Sandipan Banerjee, Guy Gafni,
- Abstract要約: オーディオ駆動ビデオV編集のためのDiTTベースのフレームワークであるEditYourselfを紹介する。
これにより、シームレスな追加、削除、視覚的に話されるコンテンツの調整など、音声ビデオの書き起こしに基づく修正が可能になる。
これは、プロ向けビデオポストプロダクションの実用的なツールとして、生成ビデオモデルへの一歩である。
- 参考スコア(独自算出の注目度): 3.3508228801277853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current generative video models excel at producing novel content from text and image prompts, but leave a critical gap in editing existing pre-recorded videos, where minor alterations to the spoken script require preserving motion, temporal coherence, speaker identity, and accurate lip synchronization. We introduce EditYourself, a DiT-based framework for audio-driven video-to-video (V2V) editing that enables transcript-based modification of talking head videos, including the seamless addition, removal, and retiming of visually spoken content. Building on a general-purpose video diffusion model, EditYourself augments its V2V capabilities with audio conditioning and region-aware, edit-focused training extensions. This enables precise lip synchronization and temporally coherent restructuring of existing performances via spatiotemporal inpainting, including the synthesis of realistic human motion in newly added segments, while maintaining visual fidelity and identity consistency over long durations. This work represents a foundational step toward generative video models as practical tools for professional video post-production.
- Abstract(参考訳): 現在の生成ビデオモデルは、テキストや画像プロンプトから新しいコンテンツを生成するのに優れているが、既存の録音済みビデオの編集において重要なギャップを残している。
音声駆動ビデオ編集(V2V)のためのDiTベースのフレームワークであるEditYourselfを導入する。
汎用的なビデオ拡散モデルに基づいて、EditYourselfは、オーディオコンディショニングと地域対応の編集中心のトレーニング拡張によって、V2V機能を増強する。
これにより、視覚的忠実性やアイデンティティの整合性を長期にわたって維持しつつ、新たに追加されたセグメントでリアルな人間の動きを合成することを含む、時空間的塗布による既存のパフォーマンスの正確な唇同期と時間的コヒーレントな再構築が可能になる。
この研究は、プロのビデオポストプロダクションのための実用的なツールとして、生成ビデオモデルに向けた基礎的なステップである。
関連論文リスト
- From Inpainting to Editing: A Self-Bootstrapping Framework for Context-Rich Visual Dubbing [24.998261989251976]
そこで本稿では,不適切な塗布作業から映像間編集問題への視覚的ダビングを再構成するセルフブートストラップフレームワークを提案する。
我々のアプローチでは、まずデータジェネレータとしてDiffusion Transformerを使用し、理想的なトレーニングデータを合成する。
DiDubTベースのオーディオ駆動エディタは、これらのペアをエンドツーエンドでトレーニングし、完全な入力ビデオフレームを活用して、正確なオーディオ駆動リップ修正のみに集中する。
論文 参考訳(メタデータ) (2025-12-31T18:58:30Z) - Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner [66.96392168346851]
AVI-Editはオーディオ同期ビデオインスタンス編集のためのフレームワークである。
本稿では,粗いユーザ用マスクを精密なインスタンスレベル領域に反復的に洗練する,粒度対応マスク精製器を提案する。
我々はまた、高品質なオーディオガイダンスをキュレートし、きめ細かい時間制御を提供するセルフフィードバックオーディオエージェントを設計する。
論文 参考訳(メタデータ) (2025-12-11T11:58:53Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers [25.36460340267922]
SkyReels-Audioは高忠実で時間的コヒーレントなポートレート映像を合成するための統一的なフレームワークである。
我々のフレームワークは、無限長の生成と編集をサポートし、マルチモーダル入力による多様かつ制御可能な条件付けを可能にする。
論文 参考訳(メタデータ) (2025-06-01T04:27:13Z) - SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文 参考訳(メタデータ) (2025-02-17T07:29:36Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - AudioScenic: Audio-Driven Video Scene Editing [55.098754835213995]
本稿では,映像シーン編集のためのオーディオ駆動フレームワークであるAudioScenicを紹介する。
AudioScenicは、時間対応の音声セマンティックインジェクションプロセスを通じて、音声セマンティクスを視覚シーンに統合する。
音の大きさの変化に応じてシーンの時間的ダイナミクスを調節するオーディオ・マグニチュード・モジュレータ・モジュールを提案する。
第2に、オーディオ周波数フーザーモジュールは、映像シーンのダイナミックスとオーディオの周波数を一致させることにより、時間的一貫性を確保するように設計されている。
論文 参考訳(メタデータ) (2024-04-25T12:55:58Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation [47.06075725469252]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。