論文の概要: SwapAnyone: Consistent and Realistic Video Synthesis for Swapping Any Person into Any Video
- arxiv url: http://arxiv.org/abs/2503.09154v1
- Date: Wed, 12 Mar 2025 08:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:20.198796
- Title: SwapAnyone: Consistent and Realistic Video Synthesis for Swapping Any Person into Any Video
- Title(参考訳): SwapAnyone:どんな人でもビデオに写せる、一貫性とリアルなビデオ合成
- Authors: Chengshu Zhao, Yunyang Ge, Xinhua Cheng, Bin Zhu, Yatian Pang, Bin Lin, Fan Yang, Feng Gao, Li Yuan,
- Abstract要約: ビデオのボディースワッピングは、既存のビデオのボディーを、任意のソースから新しいボディーに置き換えることを目的としている。
本研究では,映像のボディースワッピングを独立したタスクとして定義し,アイデンティティの整合性,動作の整合性,環境の整合性という3つの重要な要素を提案する。
SwapAnyoneというエンド・ツー・エンドのモデルを導入し、ビデオボディー・スワッピングを基準忠実度とモーションコントロールによる映像インペインティングタスクとして扱う。
- 参考スコア(独自算出の注目度): 27.492685293030338
- License:
- Abstract: Video body-swapping aims to replace the body in an existing video with a new body from arbitrary sources, which has garnered more attention in recent years. Existing methods treat video body-swapping as a composite of multiple tasks instead of an independent task and typically rely on various models to achieve video body-swapping sequentially. However, these methods fail to achieve end-to-end optimization for the video body-swapping which causes issues such as variations in luminance among frames, disorganized occlusion relationships, and the noticeable separation between bodies and background. In this work, we define video body-swapping as an independent task and propose three critical consistencies: identity consistency, motion consistency, and environment consistency. We introduce an end-to-end model named SwapAnyone, treating video body-swapping as a video inpainting task with reference fidelity and motion control. To improve the ability to maintain environmental harmony, particularly luminance harmony in the resulting video, we introduce a novel EnvHarmony strategy for training our model progressively. Additionally, we provide a dataset named HumanAction-32K covering various videos about human actions. Extensive experiments demonstrate that our method achieves State-Of-The-Art (SOTA) performance among open-source methods while approaching or surpassing closed-source models across multiple dimensions. All code, model weights, and the HumanAction-32K dataset will be open-sourced at https://github.com/PKU-YuanGroup/SwapAnyone.
- Abstract(参考訳): ビデオのボディースワッピングは、既存のビデオのボディを任意のソースから新しいボディに置き換えることを目的としており、近年注目を集めている。
既存の方法は、独立したタスクではなく複数のタスクの合成としてビデオボディースワッピングを扱い、典型的には、ビデオボディースワッピングをシーケンシャルに達成するために様々なモデルに依存している。
しかし,これらの手法は,フレーム間の輝度変化,非組織的オクルージョン関係,身体と背景の顕著な分離といった問題を引き起こすビデオボディースワッピングのエンドツーエンド最適化を達成できない。
本研究では,映像のボディースワッピングを独立したタスクとして定義し,アイデンティティの整合性,動作の整合性,環境の整合性という3つの重要な要素を提案する。
SwapAnyoneというエンド・ツー・エンドのモデルを導入し、ビデオボディー・スワッピングを基準忠実度とモーションコントロールによる映像インペインティングタスクとして扱う。
そこで本研究では,環境調和,特に輝度調和の維持能力を向上させるために,段階的にモデルをトレーニングするための新しいEnvHarmony戦略を提案する。
さらに、人間の行動に関する様々なビデオをカバーするHumanAction-32Kというデータセットを提供する。
複数の次元にまたがるクローズドソースモデルに近づいたり超えたりしながら,提案手法がオープンソース手法のSOTA(State-Of-The-Art)性能を実現することを示す。
すべてのコード、モデルウェイト、HumanAction-32Kデータセットはhttps://github.com/PKU-YuanGroup/SwapAnyone.comでオープンソース化される。
関連論文リスト
- CFSynthesis: Controllable and Free-view 3D Human Video Synthesis [57.561237409603066]
CFSynthesisは、カスタマイズ可能な属性で高品質なヒューマンビデオを生成するための新しいフレームワークである。
本手法はテクスチャ-SMPLに基づく表現を利用して,自由視点における一貫した,安定したキャラクタの出現を保証する。
複数のデータセットの結果から,複雑な人間のアニメーションにおいて,CFS合成が最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-12-15T05:57:36Z) - DeCo: Decoupled Human-Centered Diffusion Video Editing with Motion Consistency [66.49423641279374]
DeCoは、人間と背景を別々に編集可能なターゲットとして扱うように設計された、新しいビデオ編集フレームワークである。
そこで本研究では,人体を利用した非結合型動的人体表現法を提案する。
本研究は, 通常の空間と画像空間にスコア蒸留サンプリングの計算を拡張し, 最適化時の人間のテクスチャを向上する。
論文 参考訳(メタデータ) (2024-08-14T11:53:40Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - ViViD: Video Virtual Try-on using Diffusion Models [46.710863047471264]
Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。
これまでのビデオベースの試行錯誤ソリューションは、視力の低い結果とぼやけた結果しか生成できない。
ビデオ仮想トライオンの課題に対処するために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。
論文 参考訳(メタデータ) (2024-05-20T05:28:22Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。
本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文 参考訳(メタデータ) (2021-10-27T03:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。