論文の概要: Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance
- arxiv url: http://arxiv.org/abs/2605.06535v1
- Date: Thu, 07 May 2026 16:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.001971
- Title: Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance
- Title(参考訳): Sparkle: ライブのインストラクションガイドによるバックグラウンドリプレースの実現
- Authors: Ziyun Zeng, Yiqi Lin, Guoqiang Liang, Mike Zheng Shou,
- Abstract要約: 背景の置き換えは、映画制作や広告といったクリエイティブな応用の中心である。
背景の置き換えは、完全に新しい、時間的に一貫したシーンを必要とし、正確な前景と背景の相互作用を維持する。
Sparkleは5つのバックグラウンド変更テーマにまたがる140Kビデオペアのデータセットである。
- 参考スコア(独自算出の注目度): 54.34473644733862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, open-source efforts like Senorita-2M have propelled video editing toward natural language instruction. However, current publicly available datasets predominantly focus on local editing or style transfer, which largely preserve the original scene structure and are easier to scale. In contrast, Background Replacement, a task central to creative applications such as film production and advertising, requires synthesizing entirely new, temporally consistent scenes while maintaining accurate foreground-background interactions, making large-scale data generation significantly more challenging. Consequently, this complex task remains largely underexplored due to a scarcity of high-quality training data. This gap is evident in poorly performing state-of-the-art models, e.g., Kiwi-Edit, because the primary open-source dataset that contains this task, i.e., OpenVE-3M, frequently produces static, unnatural backgrounds. In this paper, we trace this quality degradation to a lack of precise background guidance during data synthesis. Accordingly, we design a scalable pipeline that generates foreground and background guidance in a decoupled manner with strict quality filtering. Building on this pipeline, we introduce Sparkle, a dataset of ~140K video pairs spanning five common background-change themes, alongside Sparkle-Bench, the largest evaluation benchmark tailored for background replacement to date. Experiments demonstrate that our dataset and the model trained on it achieve substantially better performance than all existing baselines on both OpenVE-Bench and Sparkle-Bench. Our proposed dataset, benchmark, and model are fully open-sourced at https://showlab.github.io/Sparkle/.
- Abstract(参考訳): 近年、Senorita-2Mのようなオープンソースの取り組みは、自然言語によるビデオ編集を推進している。
しかし、現在公開されているデータセットは、主にローカル編集やスタイル転送に重点を置いている。
対照的に、映画制作や広告といったクリエイティブな応用の中心となるタスクであるバックグラウンド・リプレースメントは、正確な前景と背景の相互作用を維持しながら、全く新しい、時間的に一貫したシーンを合成し、大規模なデータ生成を著しく困難にする。
結果として、この複雑なタスクは、高品質なトレーニングデータが不足しているために、ほとんど探索されていないままである。
なぜなら、このタスクを含む主要なオープンソースデータセットであるOpenVE-3Mは、静的で非自然な背景を頻繁に生成するためである。
本稿では、この品質劣化を、データ合成における正確な背景ガイダンスの欠如に追従する。
そこで我々は,厳密な品質フィルタリングと疎結合で前景と背景誘導を生成するスケーラブルなパイプラインを設計する。
このパイプライン上に構築されたSparkleは,5つのバックグラウンド変更テーマにまたがる,約140Kのビデオペアのデータセットです。
実験により、私たちのデータセットとトレーニングしたモデルが、OpenVE-BenchとSparkle-Benchの両方の既存のベースラインよりも大幅にパフォーマンスが向上したことが示された。
提案したデータセット、ベンチマーク、モデルはhttps://showlab.github.io/Sparkle/で完全にオープンソース化されています。
関連論文リスト
- MoCha:End-to-End Video Character Replacement without Structural Guidance [14.573557179926079]
MoChaは、ビデオキャラクタをユーザが提供するアイデンティティに置き換えるためのフレームワークである。
条件対応のRoPEを導入し,RLをベースとしたポストトレーニングステージを採用する。
我々は,Unreal Engine 5 (UE5)で構築された高忠実なレンダリングデータセット,現在のポートレートアニメーション技術で合成された表現駆動データセット,既存のビデオマスクペアから派生した拡張データセットの3つの特別なデータセットを設計する。
論文 参考訳(メタデータ) (2026-01-13T14:10:34Z) - Generative Video Matting [57.186684844156595]
ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。
本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T12:18:55Z) - Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Adaptive Human Matting for Dynamic Videos [62.026375402656754]
Adaptive Matting for Dynamic VideosはAdaMと呼ばれ、背景と背景を同時に区別するフレームワークである。
この目的を達成するために、2つの相互接続ネットワーク設計が採用されている。
提案手法が最近導入したデータセットをベンチマークし,検討した結果,行列が新たなクラス内でのベスト・イン・クラス・ジェネリザビリティを実現することがわかった。
論文 参考訳(メタデータ) (2023-04-12T17:55:59Z) - Leaving Reality to Imagination: Robust Classification via Generated
Datasets [24.411444438920988]
近年のロバスト性に関する研究では、テストセットと同様のデータセットでトレーニングされたニューラルイメージ分類器間での顕著なパフォーマンスギャップが明らかになった。
生成したデータセットは、画像分類器の自然な堅牢性にどのように影響するのか?
生成したデータで強化された実データに基づいて訓練された画像ネット分類器は、標準トレーニングよりも精度が高く、効果的に頑健であることがわかった。
論文 参考訳(メタデータ) (2023-02-05T22:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。