論文の概要: Object-WIPER : Training-Free Object and Associated Effect Removal in Videos
- arxiv url: http://arxiv.org/abs/2601.06391v1
- Date: Sat, 10 Jan 2026 02:28:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.788346
- Title: Object-WIPER : Training-Free Object and Associated Effect Removal in Videos
- Title(参考訳): Object-WIPER : ビデオにおける学習自由物体と関連効果除去
- Authors: Saksham Singh Kushwaha, Sayan Nag, Yapeng Tian, Kuldeep Kulkarni,
- Abstract要約: 動的オブジェクトとその関連視覚効果をビデオから除去する,トレーニング不要のフレームワークであるObject-WIPERを紹介する。
我々は、視覚的テキストのクロスアテンションと視覚的自己アテンションによって、関連する視覚トークンをローカライズする。
DAVISと新たにキュレートされた実世界関連エフェクトベンチマーク(WIPER-Bench)の実験は、Object-WIPERがトレーニングベースとトレーニングフリーベースラインの両方を上回っていることを示している。
- 参考スコア(独自算出の注目度): 41.50266704357095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce Object-WIPER, a training-free framework for removing dynamic objects and their associated visual effects from videos, and inpainting them with semantically consistent and temporally coherent content. Our approach leverages a pre-trained text-to-video diffusion transformer (DiT). Given an input video, a user-provided object mask, and query tokens describing the target object and its effects, we localize relevant visual tokens via visual-text cross-attention and visual self-attention. This produces an intermediate effect mask that we fuse with the user mask to obtain a final foreground token mask to replace. We first invert the video through the DiT to obtain structured noise, then reinitialize the masked tokens with Gaussian noise while preserving background tokens. During denoising, we copy values for the background tokens saved during inversion to maintain scene fidelity. To address the lack of suitable evaluation, we introduce a new object removal metric that rewards temporal consistency among foreground tokens across consecutive frames, coherence between foreground and background tokens within each frame, and dissimilarity between the input and output foreground tokens. Experiments on DAVIS and a newly curated real-world associated effect benchmark (WIPER-Bench) show that Object-WIPER surpasses both training-based and training-free baselines in terms of the metric, achieving clean removal and temporally stable reconstruction without any retraining. Our new benchmark, source code, and pre-trained models will be publicly available.
- Abstract(参考訳): 本稿では,動的オブジェクトとその関連視覚効果をビデオから除去する学習自由フレームワークであるObject-WIPERを紹介する。
提案手法は,事前学習したテキスト・ビデオ拡散変換器(DiT)を利用する。
入力ビデオ,ユーザが提供するオブジェクトマスク,および対象物とその効果を記述したクエリトークンが与えられた場合,視覚的テキストのクロスアテンションと視覚的自己アテンションによって関連性のある視覚トークンをローカライズする。
これにより、ユーザマスクと融合した中間効果マスクを生成し、代替となる最後のフォアグラウンドトークンマスクを取得する。
まず、DiTを通して映像を反転させ、構造化されたノイズを取得し、その後、背景トークンを保存しながらガウスノイズでマスクされたトークンを再起動する。
復調中は、インバージョン時に保存した背景トークンの値をコピーし、シーンの忠実さを維持する。
適切な評価の欠如に対処するため,各フレームにおける前景トークン間の時間的整合性,前景トークンと背景トークンのコヒーレンス,入力トークンと出力トークンの相違を考慮した新しいオブジェクト除去手法を提案する。
DAVISと新たにキュレートされた実世界関連効果ベンチマーク(WIPER-Bench)の実験により、Object-WIPERはトレーニングベースベースラインとトレーニングフリーベースラインの両方を抜いて、クリーンな除去と時間的に安定した再構築を実現している。
新しいベンチマーク、ソースコード、事前トレーニングされたモデルが公開されます。
関連論文リスト
- EraseLoRA: MLLM-Driven Foreground Exclusion and Background Subtype Aggregation for Dataset-Free Object Removal [10.015328934927062]
本稿では,注目手術を背景認識推論とテスト時間適応に置き換えるデータセットフリーフレームワークであるEraseLoRAを提案する。
第一に、バックグラウンド対応のフォアグラウンド・エクスクルージョン(BFE)は、マルチモーダルな言語モデルを使用して、ターゲットフォアグラウンド、非ターゲットフォアグラウンド、クリーンなバックグラウンドを、ペアの監督なしに単一のイメージマスクペアから分離する。
第2に、サブタイプアグリゲーション(BRSA)によるバックグラウンド認識リコンストラクションは、推論されたバックグラウンドサブタイプを相補的なピースとして扱うテストタイム最適化を実行する。
論文 参考訳(メタデータ) (2025-12-25T07:34:38Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - Text2LIVE: Text-Driven Layered Image and Video Editing [13.134513605107808]
自然画像やビデオにおけるゼロショット・テキスト駆動の外観操作法を提案する。
入力画像またはビデオとターゲットテキストプロンプトが与えられた場合、我々の目標は既存のオブジェクトの外観を編集することである。
さまざまなオブジェクトやシーンにまたがる高解像度の自然画像やビデオに対して,局所的でセマンティックな編集を実演する。
論文 参考訳(メタデータ) (2022-04-05T21:17:34Z) - Learning To Segment Dominant Object Motion From Watching Videos [72.57852930273256]
我々は,有意な移動物体セグメンテーションのための単純なフレームワークを構想する。このフレームワークは,有意なデータを必要としないし,有意な前処理や事前学習された光フローマップに依存しない。
層状画像表現に着想を得て,アフィンパラメトリックの動きに応じて画素領域をグループ化する手法を提案する。
これにより、トレーニングと推論の両方の入力として、RGBイメージペアのみを使用して、支配的なフォアグラウンドオブジェクトのセグメンテーションを学習することができる。
論文 参考訳(メタデータ) (2021-11-28T14:51:00Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。