論文の概要: DreamSwapV: Mask-guided Subject Swapping for Any Customized Video Editing
- arxiv url: http://arxiv.org/abs/2508.14465v1
- Date: Wed, 20 Aug 2025 06:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.362018
- Title: DreamSwapV: Mask-guided Subject Swapping for Any Customized Video Editing
- Title(参考訳): DreamSwapV: カスタマイズされたビデオ編集のためのマスク付きテーマスワップ
- Authors: Weitao Wang, Zichen Wang, Hongdeng Shen, Yulei Lu, Xirui Fan, Suhui Wu, Jun Zhang, Haoqian Wang, Hao Zhang,
- Abstract要約: 本稿では,任意の動画の被写体をユーザ指定のマスクや参照画像に置き換えるマスク誘導・被写体非依存・エンドツーエンドのフレームワークを提案する。
我々のDreamSwapVは既存の手法よりも優れており、VBenchインジケータに関する包括的な実験によって検証されている。
- 参考スコア(独自算出の注目度): 22.47601749326567
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the rapid progress of video generation, demand for customized video editing is surging, where subject swapping constitutes a key component yet remains under-explored. Prevailing swapping approaches either specialize in narrow domains--such as human-body animation or hand-object interaction--or rely on some indirect editing paradigm or ambiguous text prompts that compromise final fidelity. In this paper, we propose DreamSwapV, a mask-guided, subject-agnostic, end-to-end framework that swaps any subject in any video for customization with a user-specified mask and reference image. To inject fine-grained guidance, we introduce multiple conditions and a dedicated condition fusion module that integrates them efficiently. In addition, an adaptive mask strategy is designed to accommodate subjects of varying scales and attributes, further improving interactions between the swapped subject and its surrounding context. Through our elaborate two-phase dataset construction and training scheme, our DreamSwapV outperforms existing methods, as validated by comprehensive experiments on VBench indicators and our first introduced DreamSwapV-Benchmark.
- Abstract(参考訳): 映像生成の急激な進歩に伴い、被写体交換が重要コンポーネントでありながら未探索のままである、カスタマイズされたビデオ編集の需要が高まっている。
より一般的なスワップアプローチは、人体アニメーションや手オブジェクトインタラクションなど、狭いドメインを専門とするか、間接的な編集パラダイムに依存するか、最終的な忠実性を損なう曖昧なテキストプロンプトである。
本稿では,ユーザが指定したマスクと参照画像のカスタマイズのために,任意の動画の被写体を切り替えるマスク誘導型,主題に依存しない,エンドツーエンドのフレームワークであるDreamSwapVを提案する。
詳細なガイダンスを注入するために,複数の条件と,それらを効率的に統合する専用条件融合モジュールを導入する。
さらに、適応マスク戦略は、様々なスケールと属性の被写体に対応し、スワップされた被写体と周囲のコンテキストとの相互作用をさらに改善するように設計されている。
VBenchインジケータの総合的な実験と、最初のDreamSwapV-Benchmarkによって検証され、我々の精巧な2段階のデータセット構築とトレーニングスキームにより、DreamSwapVは既存の手法よりも優れています。
関連論文リスト
- Insert Anything: Image Insertion via In-Context Editing in DiT [19.733787045511775]
本稿では,参照画像からのオブジェクトをフレキシブルかつユーザ指定の制御ガイダンスの下でシームレスに統合する参照ベース画像挿入のための統一的なフレームワークを提案する。
私たちのアプローチは、新しいAnyInsertionデータセット(人、オブジェクト、衣服の挿入など、さまざまなタスクをカバーする120Kプロンプトイメージペア)で一度トレーニングされます。
論文 参考訳(メタデータ) (2025-04-21T10:19:12Z) - HOI-Swap: Swapping Objects in Videos with Hand-Object Interaction Awareness [57.18183962641015]
本稿では,自己指導型ビデオ編集フレームワークHOI-Swapについて紹介する。
第1ステージでは、HOI認識を備えた単一フレームでのオブジェクトスワップに焦点を当てている。
第2ステージは、シーケンス全体にわたって単一フレームの編集を拡張する。
論文 参考訳(メタデータ) (2024-06-11T22:31:29Z) - SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing [51.857176097841915]
SwapAnythingは、イメージ内の任意のオブジェクトを参照によって与えられるパーソナライズされた概念に置き換えることのできる、新しいフレームワークである。
1)主主題ではなく任意の対象や部分の精密な制御,(2)コンテキスト画素のより忠実な保存,(3)イメージへのパーソナライズされた概念の適応,の3つの特徴がある。
論文 参考訳(メタデータ) (2024-04-08T17:52:29Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - VideoSwap: Customized Video Subject Swapping with Interactive Semantic
Point Correspondence [37.85691662157054]
密度の高い対応に依存するビデオ編集アプローチは、ターゲット編集が形状変化を伴う場合、効果がない。
我々は,対象者の運動軌跡を調整し,その形状を変更するために,少数の意味点しか必要としないという観察から着想を得た VideoSwap フレームワークを紹介した。
大規模な実験では、さまざまな現実世界のビデオで結果を交換する最先端のビデオ被験者がデモされている。
論文 参考訳(メタデータ) (2023-12-04T17:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。