論文の概要: ROSE: Remove Objects with Side Effects in Videos
- arxiv url: http://arxiv.org/abs/2508.18633v1
- Date: Tue, 26 Aug 2025 03:18:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.656276
- Title: ROSE: Remove Objects with Side Effects in Videos
- Title(参考訳): ROSE:ビデオにサイドエフェクトのあるオブジェクトを削除する
- Authors: Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao,
- Abstract要約: ROSEは、物体が環境に与える影響を研究するためのフレームワークであり、影、反射、光、透明度、鏡の5つの一般的なケースに分類される。
すべてのオブジェクト関連領域をローカライズするために、ビデオ全体を参照ベースの消去モデルに入力する。
副次的効果によって影響を受ける領域を明示的に予測するために、追加の監督が導入された。
- 参考スコア(独自算出の注目度): 47.196851721000655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video object removal has achieved advanced performance due to the recent success of video generative models. However, when addressing the side effects of objects, e.g., their shadows and reflections, existing works struggle to eliminate these effects for the scarcity of paired video data as supervision. This paper presents ROSE, termed Remove Objects with Side Effects, a framework that systematically studies the object's effects on environment, which can be categorized into five common cases: shadows, reflections, light, translucency and mirror. Given the challenges of curating paired videos exhibiting the aforementioned effects, we leverage a 3D rendering engine for synthetic data generation. We carefully construct a fully-automatic pipeline for data preparation, which simulates a large-scale paired dataset with diverse scenes, objects, shooting angles, and camera trajectories. ROSE is implemented as an video inpainting model built on diffusion transformer. To localize all object-correlated areas, the entire video is fed into the model for reference-based erasing. Moreover, additional supervision is introduced to explicitly predict the areas affected by side effects, which can be revealed through the differential mask between the paired videos. To fully investigate the model performance on various side effect removal, we presents a new benchmark, dubbed ROSE-Bench, incorporating both common scenarios and the five special side effects for comprehensive evaluation. Experimental results demonstrate that ROSE achieves superior performance compared to existing video object erasing models and generalizes well to real-world video scenarios. The project page is https://rose2025-inpaint.github.io/.
- Abstract(参考訳): 近年,映像生成モデルの成功により,映像オブジェクトの除去性能が向上した。
しかしながら、オブジェクトの副作用、例えば影や反射に対処する場合、既存の研究は、ペア化されたビデオデータの不足を監督する上でこれらの効果を排除するのに苦労している。
本稿では,環境に対する物体の影響を体系的に研究するフレームワークであるRemove Objects with Side Effects (ROSE)を,影,反射,光,透視,鏡の5つの一般的な事例に分類する。
上記の効果を示すペアビデオのキュレーションの課題を考えると,合成データ生成に3Dレンダリングエンジンを利用する。
データ準備のための完全自動パイプラインを慎重に構築し、多様なシーン、オブジェクト、撮影角度、カメラ軌道を含む大規模なペアデータセットをシミュレートする。
ROSEは拡散変圧器上に構築されたビデオ塗装モデルとして実装されている。
すべてのオブジェクト関連領域をローカライズするために、ビデオ全体を参照ベースの消去モデルに入力する。
さらに、副次的な効果によって影響を受ける領域を明示的に予測するために、追加の監督が導入された。
そこで本研究では, ROSE-Benchと呼ばれる, 共通シナリオと5つの特殊効果を総合評価に取り入れた新しいベンチマークを提案する。
実験により,ROSEは既存の映像オブジェクト消去モデルと比較して優れた性能を示し,実世界の映像シナリオによく適合することを示した。
プロジェクトページはhttps://rose2025-inpaint.github.io/。
関連論文リスト
- ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。
このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。
本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文 参考訳(メタデータ) (2025-03-11T04:42:59Z) - OmniEraser: Remove Objects and Their Effects in Images with Paired Video-Frame Data [21.469971783624402]
本稿では,現実的な物体影と反射を伴う10万以上の高品質なサンプルからなる大規模データセットであるVideo4Removalを提案する。
ビデオフレームと市販のビジョンモデルからオブジェクト-バックグラウンドペアを構築することにより、データ取得の作業コストを大幅に削減することができる。
形状的なアーティファクトや意図しないコンテンツを生成するのを避けるために,Object-Background Guidanceを提案する。
我々は,オブジェクトマスクのみを入力として,オブジェクトとその視覚効果をシームレスに除去する新しい手法であるOmniEraserを提案する。
論文 参考訳(メタデータ) (2025-01-13T15:12:40Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - Omnimatte: Associating Objects and Their Effects in Video [100.66205249649131]
映像内のオブジェクトに関連するシーン効果は通常、コンピュータビジョンによって見過ごされる。
本研究では,映像におけるオブジェクトとその効果を自動的に関連付ける,この新しい問題を解決するための一歩を踏み出す。
私達のモデルは手動ラベルなしで自己監督された方法で入力ビデオでだけ訓練され、ジェネリックです---任意目的およびいろいろな効果のためのオムニマトを自動的に作り出します。
論文 参考訳(メタデータ) (2021-05-14T17:57:08Z) - RELATE: Physically Plausible Multi-Object Scene Synthesis Using
Structured Latent Spaces [77.07767833443256]
RELATEは、複数の対話オブジェクトの物理的に可視なシーンとビデオを生成することを学習するモデルである。
オブジェクト中心生成モデリングにおける最先端の手法とは対照的に、RELATEは自然に動的なシーンに拡張し、高い視覚的忠実度のビデオを生成する。
論文 参考訳(メタデータ) (2020-07-02T17:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。