論文の概要: Replace Anyone in Videos
- arxiv url: http://arxiv.org/abs/2409.19911v2
- Date: Wed, 07 May 2025 06:40:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.728055
- Title: Replace Anyone in Videos
- Title(参考訳): ビデオで誰にでも置き換える
- Authors: Xiang Wang, Shiwei Zhang, Haonan Qiu, Ruihang Chu, Zekun Li, Yingya Zhang, Changxin Gao, Yuehuan Wang, Chunhua Shen, Nong Sang,
- Abstract要約: ReplaceAnyoneフレームワークは、複雑な背景を特徴とする、局所的な人間の置換と挿入に焦点を当てたフレームワークである。
我々は,このタスクを,一貫したエンド・ツー・エンドビデオ拡散アーキテクチャを用いて,ポーズガイダンスを用いた画像条件付きビデオ塗装パラダイムとして定式化する。
提案されたReplaceAnyoneは従来の3D-UNetベースモデルだけでなく、Wan2.1のようなDiTベースのビデオモデルにもシームレスに適用できる。
- 参考スコア(独自算出の注目度): 82.37852750357331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of controllable human-centric video generation has witnessed remarkable progress, particularly with the advent of diffusion models. However, achieving precise and localized control over human motion in videos, such as replacing or inserting individuals while preserving desired motion patterns, still remains a formidable challenge. In this work, we present the ReplaceAnyone framework, which focuses on localized human replacement and insertion featuring intricate backgrounds. Specifically, we formulate this task as an image-conditioned video inpainting paradigm with pose guidance, utilizing a unified end-to-end video diffusion architecture that facilitates image-conditioned video inpainting within masked regions. To prevent shape leakage and enable granular local control, we introduce diverse mask forms involving both regular and irregular shapes. Furthermore, we implement an enriched visual guidance mechanism to enhance appearance alignment, a hybrid inpainting encoder to further preserve the detailed background information in the masked video, and a two-phase optimization methodology to simplify the training difficulty. ReplaceAnyone enables seamless replacement or insertion of characters while maintaining the desired pose motion and reference appearance within a single framework. Extensive experimental results demonstrate the effectiveness of our method in generating realistic and coherent video content. The proposed ReplaceAnyone can be seamlessly applied not only to traditional 3D-UNet base models but also to DiT-based video models such as Wan2.1. The code will be available at https://github.com/ali-vilab/UniAnimate-DiT.
- Abstract(参考訳): 制御可能な人間中心のビデオ生成の分野は、特に拡散モデルの出現で顕著な進歩をみせた。
しかし、動画における人間の動きを正確にかつ局所的に制御すること、例えば、個人を置き換えたり、挿入したり、望ましい動きパターンを保存したりすることは、依然として恐ろしい課題である。
本研究では,複雑な背景を特徴とする局所的な人体置換と挿入に焦点を当てたReplaceAnyoneフレームワークを提案する。
具体的には、このタスクを、マスク付き領域内での映像条件付き映像の塗布を容易にする統一的なエンドツーエンドビデオ拡散アーキテクチャを用いて、ポーズガイダンスによる画像条件付き映像の塗布パラダイムとして定式化する。
形状漏れを防止し,局所制御の粒度制御を可能にするため,正規形状と不規則形状の両方を含む多彩なマスク形状を導入する。
さらに、外観アライメントを高めるためのリッチな視覚誘導機構、マスク付きビデオの詳細な背景情報を更に保存するハイブリッド塗装エンコーダ、トレーニングの難易度を高めるための2段階最適化手法を実装した。
ReplaceAnyoneは、望まれるポーズの動きと参照の外観を単一のフレームワーク内で維持しながら、文字のシームレスな置換または挿入を可能にする。
広範にわたる実験結果から,現実的かつ一貫性のある映像コンテンツを生成する上で,本手法の有効性が示された。
提案されたReplaceAnyoneは従来の3D-UNetベースモデルだけでなく、Wan2.1のようなDiTベースのビデオモデルにもシームレスに適用できる。
コードはhttps://github.com/ali-vilab/UniAnimate-DiT.comから入手できる。
関連論文リスト
- Move-in-2D: 2D-Conditioned Human Motion Generation [54.067588636155115]
そこで我々は,シーンイメージに条件付けされた人間の動作シーケンスを生成する新しい手法であるMove-in-2Dを提案する。
本手法はシーンイメージとテキストプロンプトの両方を入力として受け入れ,シーンに合わせた動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-12-17T18:58:07Z) - Blended Latent Diffusion under Attention Control for Real-World Video Editing [5.659933808910005]
本稿では,局所的なビデオ編集作業を行うために,画像レベルのブレンド潜在拡散モデルを適用することを提案する。
具体的には、DDIMのインバージョンを利用して、ランダムにノイズのあるものではなく、背景の潜伏者として潜伏者を取得する。
また,拡散段階におけるクロスアテンションマップから導かれる自律マスク製造機構を導入する。
論文 参考訳(メタデータ) (2024-09-05T13:23:52Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。
我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。
誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文 参考訳(メタデータ) (2024-05-26T00:53:26Z) - DreamVideo: Composing Your Dream Videos with Customized Subject and
Motion [52.7394517692186]
対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。
DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。
モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
論文 参考訳(メタデータ) (2023-12-07T16:57:26Z) - SAVE: Protagonist Diversification with Structure Agnostic Video Editing [29.693364686494274]
従来の作品は通常、自明で一貫した形状でうまく機能し、元のものと大きく異なる体形を持つ難しいターゲットで容易に崩壊する。
動きのパーソナライズを単一音源映像から分離し,それに応じて動きの調整を行う。
我々はまた、新しい擬似光学フローを導入することにより、動き語を適切な動き関連領域に適応するように調整する。
論文 参考訳(メタデータ) (2023-12-05T05:13:20Z) - Generative Rendering: Controllable 4D-Guided Video Generation with 2D
Diffusion Models [40.71940056121056]
本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。
本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
論文 参考訳(メタデータ) (2023-12-03T14:17:11Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文 参考訳(メタデータ) (2023-10-12T16:26:18Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Video2StyleGAN: Disentangling Local and Global Variations in a Video [68.70889857355678]
StyleGANは、顔編集の強力なパラダイムとして登場し、年齢、表現、照明などに対する混乱したコントロールを提供する。
我々は,対象画像の同一性において,運転映像の局所的およびグローバル的位置と表現を再現するために,対象画像と運転映像を撮影するVideo2StyleGANを紹介する。
論文 参考訳(メタデータ) (2022-05-27T14:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。