論文の概要: From Understanding to Erasing: Towards Complete and Stable Video Object Removal
- arxiv url: http://arxiv.org/abs/2604.01693v1
- Date: Thu, 02 Apr 2026 06:50:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.571914
- Title: From Understanding to Erasing: Towards Complete and Stable Video Object Removal
- Title(参考訳): 理解から消去へ:完全で安定したビデオオブジェクト除去を目指して
- Authors: Dingming Liu, Wenjing Wang, Chen Li, Jing Lyu,
- Abstract要約: ビデオオブジェクトの削除は、ビデオからターゲットオブジェクトを排除し、欠落した領域を確実に完了し、時間的一貫性を維持することを目的としている。
全体コヒーレンスを損なうことなく、物体によって引き起こされる副作用を取り除くことは依然として困難である。
本稿では,2つの相補的観点からの消去の理解を紹介する。
- 参考スコア(独自算出の注目度): 8.035439287403983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video object removal aims to eliminate target objects from videos while plausibly completing missing regions and preserving spatio-temporal consistency. Although diffusion models have recently advanced this task, it remains challenging to remove object-induced side effects (e.g., shadows, reflections, and illumination changes) without compromising overall coherence. This limitation stems from the insufficient physical and semantic understanding of the target object and its interactions with the scene. In this paper, we propose to introduce understanding into erasing from two complementary perspectives. Externally, we introduce a distillation scheme that transfers the relationships between objects and their induced effects from vision foundation models to video diffusion models. Internally, we propose a framewise context cross-attention mechanism that grounds each denoising block in informative, unmasked context surrounding the target region. External and internal guidance jointly enable our model to understand the target object, its induced effects, and the global background context, resulting in clear and coherent object removal. Extensive experiments demonstrate our state-of-the-art performance, and we establish the first real-world benchmark for video object removal to facilitate future research and community progress. Our code, data, and models are available at: https://github.com/WeChatCV/UnderEraser.
- Abstract(参考訳): ビデオオブジェクトの削除は、ビデオからターゲットオブジェクトを排除し、欠落した領域を確実に完了し、時空間の一貫性を保つことを目的としている。
拡散モデルは近年この課題を推し進めているが、全体コヒーレンスを損なうことなく、物体によって引き起こされる副作用(例えば、影、反射、照明の変化)を除去することは依然として困難である。
この制限は、ターゲットオブジェクトの物理的および意味的な理解が不十分であることと、シーンとの相互作用に起因している。
本稿では,2つの相補的な観点からの消去の理解を導入することを提案する。
外部では,物体間の関係と誘導効果を視覚基礎モデルからビデオ拡散モデルに伝達する蒸留方式を導入する。
内部的には,対象領域を囲む情報的かつ無意味なコンテキストにおいて,各聴覚ブロックを接地するフレームワイズ・コンテキスト・クロスアテンション機構を提案する。
外部と内部のガイダンスにより,対象対象,誘導効果,大域的背景状況の理解が可能となり,明確で一貫性のある対象の除去が可能となった。
大規模な実験は、我々の最先端のパフォーマンスを実証し、将来の研究とコミュニティの進展を促進するために、ビデオオブジェクト除去のための最初の実世界のベンチマークを構築します。
私たちのコード、データ、モデルは、https://github.com/WeChatCV/UnderEraser.comで利用可能です。
関連論文リスト
- VOID: Video Object and Interaction Deletion [50.155301620235285]
既存のビデオオブジェクト除去手法は、オブジェクトの「裏」にペンキを塗ることに優れ、影や反射のような外観レベルのアーティファクトを補正する。
本稿では,複雑なシナリオにおいて物理的に表現可能な描画を実現するためのビデオオブジェクト除去フレームワークVOIDを提案する。
論文 参考訳(メタデータ) (2026-04-02T17:36:53Z) - EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing [50.43992550991499]
ビデオオブジェクトの除去は、動的対象オブジェクトとその変形、影、反射などの視覚的効果をなくし、シームレスな背景を復元することを目的としている。
近年の拡散型ビデオ塗装法や物体除去法は、物体を除去するが、これらの効果を消し去ってコヒーレントな背景を合成するのに苦労することが多い。
多様なペアビデオを提供する大規模データセットであるVOR(Video Object removal)を紹介する。
本稿では,ビデオオブジェクト挿入を相互学習方式における逆補助タスクとして扱う効果を考慮したビデオオブジェクト削除手法であるEffectEraseを提案する。
論文 参考訳(メタデータ) (2026-03-19T17:59:22Z) - GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection [54.879037588415656]
GenHOIは、事前訓練されたビデオ生成モデルに対する軽量な拡張である。
参照オブジェクト情報を時間的にバランスよく空間的に選択的に注入する。
GenHOIは最先端のHOI再現やオールインワンのビデオ編集方法よりも優れています。
論文 参考訳(メタデータ) (2026-03-06T09:01:09Z) - ObjectClear: Complete Object Removal via Object-Effect Attention [56.2893552300215]
我々は、オブジェクトとそれに関連する視覚的アーティファクトの両方の正確なマスクとともに、オブジェクト効果と不要なペア画像を提供するOBERという、オブジェクト・エフェクト除去のための新しいデータセットを紹介した。
本研究では,物体効果の注意機構を組み込んだ新しいフレームワーク ObjectClear を提案する。
実験では、ObjectClearが既存のメソッドよりも優れており、特に複雑なシナリオにおいて、オブジェクト・エフェクトの除去品質と背景の忠実さの改善を実現している。
論文 参考訳(メタデータ) (2025-05-28T17:51:17Z) - OmniEraser: Remove Objects and Their Effects in Images with Paired Video-Frame Data [21.469971783624402]
本稿では,現実的な物体影と反射を伴う10万以上の高品質なサンプルからなる大規模データセットであるVideo4Removalを提案する。
ビデオフレームと市販のビジョンモデルからオブジェクト-バックグラウンドペアを構築することにより、データ取得の作業コストを大幅に削減することができる。
形状的なアーティファクトや意図しないコンテンツを生成するのを避けるために,Object-Background Guidanceを提案する。
我々は,オブジェクトマスクのみを入力として,オブジェクトとその視覚効果をシームレスに除去する新しい手法であるOmniEraserを提案する。
論文 参考訳(メタデータ) (2025-01-13T15:12:40Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Weakly-Supervised Video Object Grounding via Causal Intervention [82.68192973503119]
我々は、モデル学習中にのみビデオ文アノテーションが利用できる、弱教師付きビデオオブジェクトグラウンドディング(WSVOG)の課題をターゲットにしている。
文で記述されたオブジェクトをビデオの視覚領域にローカライズすることを目的としており、パターン分析や機械学習に必要な基本的な機能である。
論文 参考訳(メタデータ) (2021-12-01T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。