論文の概要: VOID: Video Object and Interaction Deletion
- arxiv url: http://arxiv.org/abs/2604.02296v1
- Date: Thu, 02 Apr 2026 17:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.974776
- Title: VOID: Video Object and Interaction Deletion
- Title(参考訳): VOID:ビデオオブジェクトとインタラクション削除
- Authors: Saman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan, Ta-Ying Cheng,
- Abstract要約: 既存のビデオオブジェクト除去手法は、オブジェクトの「裏」にペンキを塗ることに優れ、影や反射のような外観レベルのアーティファクトを補正する。
本稿では,複雑なシナリオにおいて物理的に表現可能な描画を実現するためのビデオオブジェクト除去フレームワークVOIDを提案する。
- 参考スコア(独自算出の注目度): 50.155301620235285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing video object removal methods excel at inpainting content "behind" the object and correcting appearance-level artifacts such as shadows and reflections. However, when the removed object has more significant interactions, such as collisions with other objects, current models fail to correct them and produce implausible results. We present VOID, a video object removal framework designed to perform physically-plausible inpainting in these complex scenarios. To train the model, we generate a new paired dataset of counterfactual object removals using Kubric and HUMOTO, where removing an object requires altering downstream physical interactions. During inference, a vision-language model identifies regions of the scene affected by the removed object. These regions are then used to guide a video diffusion model that generates physically consistent counterfactual outcomes. Experiments on both synthetic and real data show that our approach better preserves consistent scene dynamics after object removal compared to prior video object removal methods. We hope this framework sheds light on how to make video editing models better simulators of the world through high-level causal reasoning.
- Abstract(参考訳): 既存のビデオオブジェクト除去手法は、オブジェクトの「裏」にペンキを塗ることに優れ、影や反射のような外観レベルのアーティファクトを補正する。
しかし、除去されたオブジェクトが、他のオブジェクトとの衝突のようなより重要な相互作用を持つ場合、現在のモデルはそれらを修正できず、不可解な結果を生み出す。
本稿では,これらの複雑なシナリオにおいて,物理的に表現可能なインペイントを実現するためのビデオオブジェクト除去フレームワークVOIDを提案する。
このモデルをトレーニングするために,Kubric と Humoto を用いた対物除去データセットを新たに生成し,物体の除去には下流の物理的相互作用を変更する必要がある。
推論中、視覚言語モデルは、削除されたオブジェクトによって影響を受けるシーンの領域を特定する。
これらの領域は、物理的に一貫した反ファクト結果を生成するビデオ拡散モデルを導くために使用される。
合成データと実データの両方を用いた実験により,従来の映像オブジェクト除去法と比較して,オブジェクト除去後の一貫したシーン動態をよりよく保存できることが示された。
このフレームワークが、高レベルの因果推論を通じて、ビデオ編集モデルをより優れたシミュレータにする方法に光を当てることを願っている。
関連論文リスト
- From Understanding to Erasing: Towards Complete and Stable Video Object Removal [8.035439287403983]
ビデオオブジェクトの削除は、ビデオからターゲットオブジェクトを排除し、欠落した領域を確実に完了し、時間的一貫性を維持することを目的としている。
全体コヒーレンスを損なうことなく、物体によって引き起こされる副作用を取り除くことは依然として困難である。
本稿では,2つの相補的観点からの消去の理解を紹介する。
論文 参考訳(メタデータ) (2026-04-02T06:50:39Z) - EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing [50.43992550991499]
ビデオオブジェクトの除去は、動的対象オブジェクトとその変形、影、反射などの視覚的効果をなくし、シームレスな背景を復元することを目的としている。
近年の拡散型ビデオ塗装法や物体除去法は、物体を除去するが、これらの効果を消し去ってコヒーレントな背景を合成するのに苦労することが多い。
多様なペアビデオを提供する大規模データセットであるVOR(Video Object removal)を紹介する。
本稿では,ビデオオブジェクト挿入を相互学習方式における逆補助タスクとして扱う効果を考慮したビデオオブジェクト削除手法であるEffectEraseを提案する。
論文 参考訳(メタデータ) (2026-03-19T17:59:22Z) - ROSE: Remove Objects with Side Effects in Videos [47.196851721000655]
ROSEは、物体が環境に与える影響を研究するためのフレームワークであり、影、反射、光、透明度、鏡の5つの一般的なケースに分類される。
すべてのオブジェクト関連領域をローカライズするために、ビデオ全体を参照ベースの消去モデルに入力する。
副次的効果によって影響を受ける領域を明示的に予測するために、追加の監督が導入された。
論文 参考訳(メタデータ) (2025-08-26T03:18:31Z) - ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion [34.29147907526832]
拡散モデルは画像編集に革命をもたらしたが、しばしば物理法則に違反した画像を生成する。
本稿では,qcounterfactal データセットを中心とした実用的ソリューションを提案する。
このデータセット上で拡散モデルを微調整することで、オブジェクトを除去するだけでなく、シーンへの影響も除去できるのです。
論文 参考訳(メタデータ) (2024-03-27T17:59:52Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces [77.07767833443256]
RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
論文 参考訳(メタデータ) (2020-07-02T17:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。