論文の概要: From Ideal to Real: Stable Video Object Removal under Imperfect Conditions
- arxiv url: http://arxiv.org/abs/2603.09283v1
- Date: Tue, 10 Mar 2026 07:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.115272
- Title: From Ideal to Real: Stable Video Object Removal under Imperfect Conditions
- Title(参考訳): 理想から現実へ:不完全な条件下での安定したビデオオブジェクト除去
- Authors: Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan,
- Abstract要約: シャドウフリー,フリックフリー,マスクディフェクト耐性の3つの鍵設計による除去を実現する頑健なフレームワークを提案する。
SVORは、複数のデータセットと劣化したマスクベンチマークにまたがって、最先端の新たな結果を取得する。
- 参考スコア(独自算出の注目度): 20.340320193953865
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Removing objects from videos remains difficult in the presence of real-world imperfections such as shadows, abrupt motion, and defective masks. Existing diffusion-based video inpainting models often struggle to maintain temporal stability and visual consistency under these challenges. We propose Stable Video Object Removal (SVOR), a robust framework that achieves shadow-free, flicker-free, and mask-defect-tolerant removal through three key designs: (1) Mask Union for Stable Erasure (MUSE), a windowed union strategy applied during temporal mask downsampling to preserve all target regions observed within each window, effectively handling abrupt motion and reducing missed removals; (2) Denoising-Aware Segmentation (DA-Seg), a lightweight segmentation head on a decoupled side branch equipped with Denoising-Aware AdaLN and trained with mask degradation to provide an internal diffusion-aware localization prior without affecting content generation; and (3) Curriculum Two-Stage Training: where Stage I performs self-supervised pretraining on unpaired real-background videos with online random masks to learn realistic background and temporal priors, and Stage II refines on synthetic pairs using mask degradation and side-effect-weighted losses, jointly removing objects and their associated shadows/reflections while improving cross-domain robustness. Extensive experiments show that SVOR attains new state-of-the-art results across multiple datasets and degraded-mask benchmarks, advancing video object removal from ideal settings toward real-world applications.
- Abstract(参考訳): ビデオから物体を取り除くことは、影、突然の動き、欠陥マスクといった現実世界の欠陥の存在下では依然として困難である。
既存の拡散型ビデオ塗装モデルは、これらの課題の下で時間的安定性と視覚的一貫性を維持するのに苦労することが多い。
安定ビデオオブジェクト除去 (SVOR) は,1) 安定消去のためのマスクユニオン (MUSE) , 時間的マスクダウンサンプリング中に適用された窓付きユニオン戦略により, 各ウィンドウ内で観測された全ての対象領域を効果的に処理し, 失効除去を低減させる, (DA-Seg) 脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛・脱毛の3つの主要なデザイン 。
大規模な実験により、SVORは複数のデータセットと劣化したマスクベンチマークにまたがって新しい最先端の結果を得ることができ、理想的な設定から現実のアプリケーションへのビデオオブジェクトの削除が進められている。
関連論文リスト
- Object-WIPER : Training-Free Object and Associated Effect Removal in Videos [41.50266704357095]
動的オブジェクトとその関連視覚効果をビデオから除去する,トレーニング不要のフレームワークであるObject-WIPERを紹介する。
我々は、視覚的テキストのクロスアテンションと視覚的自己アテンションによって、関連する視覚トークンをローカライズする。
DAVISと新たにキュレートされた実世界関連エフェクトベンチマーク(WIPER-Bench)の実験は、Object-WIPERがトレーニングベースとトレーニングフリーベースラインの両方を上回っていることを示している。
論文 参考訳(メタデータ) (2026-01-10T02:28:31Z) - LoVoRA: Text-guided and Mask-free Video Object Removal and Addition with Learnable Object-aware Localization [49.945233586949286]
LoVoRAは、マスクのないビデオオブジェクトの削除と追加のための新しいフレームワークである。
提案手法は,画像間翻訳,光フローベースのマスク伝搬,ビデオペインティングを統合し,時間的に一貫した編集を可能にする。
LoVoRAは、推論中に外部制御信号を必要とせずに、エンドツーエンドのビデオ編集を実現する。
論文 参考訳(メタデータ) (2025-12-02T17:01:07Z) - VividFace: High-Quality and Efficient One-Step Diffusion For Video Face Enhancement [51.83206132052461]
ビデオ顔強調(VFE)は、劣化したビデオシーケンスから高品質な顔領域を再構築することを目指している。
ビデオの超解像と生成フレームワークに依存する現在の手法は、3つの根本的な課題に直面している。
ビデオ・フェイス・エンハンスメントのための新規かつ効率的なワンステップ拡散フレームワークであるVividFaceを提案する。
論文 参考訳(メタデータ) (2025-09-28T02:39:48Z) - Contrast-Prior Enhanced Duality for Mask-Free Shadow Removal [12.417806583744134]
既存のシャドウ除去法はしばしばシャドウマスクに依存しており、現実のシナリオでは取得が困難である。
局所コントラスト情報などの本質的な画像手がかりの探索は、明示的なマスクがない場合のシャドウ除去を導くための潜在的な代替手段を示す。
本稿では,適応型2分岐注意機構 (AGBA) を提案する。
論文 参考訳(メタデータ) (2025-07-29T16:00:42Z) - Interactive Video Generation via Domain Adaptation [7.397099215417549]
テキスト条件付き拡散モデルは高品質のビデオ生成のための強力なツールとして登場してきた。
近年の無訓練アプローチでは、軌道案内のための注意マスクが導入されているが、品質は低下することが多い。
これらの手法の2つの重要な障害モードを特定し、どちらもドメイン問題と解釈する。
論文 参考訳(メタデータ) (2025-05-30T06:19:47Z) - OmnimatteZero: Fast Training-free Omnimatte with Pre-trained Video Diffusion Models [43.66951172698387]
オムニマテゼロ(OmnimatteZero)は、オムニマテの既訓練ビデオ拡散モデルを利用したトレーニング不要の手法である。
ビデオからオブジェクトを取り除き、個々のオブジェクト層をその効果とともに抽出し、それらのオブジェクトを新しいビデオに合成する。
論文 参考訳(メタデータ) (2025-03-23T11:26:48Z) - Unsupervised Region-Growing Network for Object Segmentation in Atmospheric Turbulence [10.8380383565446]
大気乱流による動画中の移動物体のセグメンテーションに対する教師なしのアプローチを提案する。
まず、高信頼で動く物体の小さな集合を識別し、その後、これらの種子から徐々に前景マスクを成長させ、すべての動く物体を分割する。
その結果, 移動物体のセグメンテーションにおける精度は良好であり, 様々な乱流強度を持つ長距離ビデオに対してロバストであることがわかった。
論文 参考訳(メタデータ) (2023-11-06T22:17:18Z) - MOHO: Learning Single-view Hand-held Object Reconstruction with
Multi-view Occlusion-Aware Supervision [75.38953287579616]
ハンドヘルドオブジェクト再構成のためのハンドオブジェクトビデオから,多視点オクルージョン対応監視を利用する新しいフレームワークを提案する。
このような設定において、手による排他と対象の自己排他という2つの主要な課題に対処する。
HO3D と DexYCB のデータセットを用いた実験では、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることが示された。
論文 参考訳(メタデータ) (2023-10-18T03:57:06Z) - Recovering Continuous Scene Dynamics from A Single Blurry Image with
Events [58.7185835546638]
インプリシットビデオ関数(IVF)は、同時イベントを伴う単一の動きのぼやけた画像を表現する。
両モードの利点を効果的に活用するために、二重注意変換器を提案する。
提案するネットワークは,限られた参照タイムスタンプの地平線画像の監督のみで訓練される。
論文 参考訳(メタデータ) (2023-04-05T18:44:17Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。