論文の概要: OmniEraser: Remove Objects and Their Effects in Images with Paired Video-Frame Data
- arxiv url: http://arxiv.org/abs/2501.07397v3
- Date: Tue, 11 Mar 2025 14:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 16:15:12.184424
- Title: OmniEraser: Remove Objects and Their Effects in Images with Paired Video-Frame Data
- Title(参考訳): OmniEraser: ビデオフレームデータによる物体の除去とその画像への影響
- Authors: Runpu Wei, Zijin Yin, Shuo Zhang, Lanxiang Zhou, Xueyi Wang, Chao Ban, Tianwei Cao, Hao Sun, Zhongjiang He, Kongming Liang, Zhanyu Ma,
- Abstract要約: 本稿では,現実的な物体影と反射を伴う10万以上の高品質なサンプルからなる大規模データセットであるVideo4Removalを提案する。
ビデオフレームと市販のビジョンモデルからオブジェクト-バックグラウンドペアを構築することにより、データ取得の作業コストを大幅に削減することができる。
形状的なアーティファクトや意図しないコンテンツを生成するのを避けるために,Object-Background Guidanceを提案する。
我々は,オブジェクトマスクのみを入力として,オブジェクトとその視覚効果をシームレスに除去する新しい手法であるOmniEraserを提案する。
- 参考スコア(独自算出の注目度): 21.469971783624402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inpainting algorithms have achieved remarkable progress in removing objects from images, yet still face two challenges: 1) struggle to handle the object's visual effects such as shadow and reflection; 2) easily generate shape-like artifacts and unintended content. In this paper, we propose Video4Removal, a large-scale dataset comprising over 100,000 high-quality samples with realistic object shadows and reflections. By constructing object-background pairs from video frames with off-the-shelf vision models, the labor costs of data acquisition can be significantly reduced. To avoid generating shape-like artifacts and unintended content, we propose Object-Background Guidance, an elaborated paradigm that takes both the foreground object and background images. It can guide the diffusion process to harness richer contextual information. Based on the above two designs, we present OmniEraser, a novel method that seamlessly removes objects and their visual effects using only object masks as input. Extensive experiments show that OmniEraser significantly outperforms previous methods, particularly in complex in-the-wild scenes. And it also exhibits a strong generalization ability in anime-style images. Datasets, models, and codes will be published.
- Abstract(参考訳): 画像からオブジェクトを除去するアルゴリズムは、驚くべき進歩を遂げていますが、それでも2つの課題に直面しています。
1) 影や反射のような物体の視覚的効果を扱うのに苦労すること。
2)形状的アーティファクトや意図しない内容を容易に生成する。
本稿では,現実的な物体影と反射を伴う10万以上の高品質なサンプルからなる大規模データセットであるVideo4Removalを提案する。
ビデオフレームと市販のビジョンモデルからオブジェクト-バックグラウンドペアを構築することにより、データ取得の作業コストを大幅に削減することができる。
形状的アーティファクトや意図しないコンテンツの生成を避けるため,前景オブジェクトと背景イメージの両方を取り入れた精巧なパラダイムであるObject-Background Guidanceを提案する。
拡散プロセスをガイドして、よりリッチなコンテキスト情報を利用することができます。
上記の2つの設計に基づいて,オブジェクトマスクのみを入力として,オブジェクトとその視覚効果をシームレスに除去する新しい手法であるOmniEraserを提案する。
大規模な実験により、OmniEraserは、特に複雑な室内シーンにおいて、従来の手法よりも大幅に優れていたことが示されている。
また、アニメ風の画像にも強力な一般化能力がある。
データセット、モデル、コードを公開する。
関連論文リスト
- OmnimatteZero: Training-free Real-time Omnimatte with Pre-trained Video Diffusion Models [31.48981364573974]
オムニマテゼロ(OmnimatteZero)は、オムニマテの既訓練ビデオ拡散モデルを利用したトレーニング不要の手法である。
ビデオからオブジェクトを取り除き、個々のオブジェクト層をその効果とともに抽出し、それらのオブジェクトを新しいビデオに合成する。
自己注意マップは、オブジェクトとそのフットプリントに関する情報をキャプチャし、それらを使ってオブジェクトの効果を描き、クリーンな背景を残します。
論文 参考訳(メタデータ) (2025-03-23T11:26:48Z) - Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。
清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。
本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文 参考訳(メタデータ) (2024-11-26T20:26:49Z) - Generative Omnimatte: Learning to Decompose Video into Layers [29.098471541412113]
本報告では,全方位問題に対処する新しい生成階層化ビデオ分解フレームワークを提案する。
私たちの中核となる考え方は、特定の物体によって引き起こされるシーン効果を識別し除去するために、ビデオ拡散モデルを訓練することです。
我々は,このモデルを,小さく,慎重にキュレートしたデータセットを用いて,既存のビデオインペイントモデルから微調整できることを示す。
論文 参考訳(メタデータ) (2024-11-25T18:59:57Z) - MagicEraser: Erasing Any Objects via Semantics-Aware Control [40.683569840182926]
オブジェクト消去タスクに適した拡散モデルに基づくフレームワークであるMagicEraserを紹介する。
MagicEraserは、望ましくないアーティファクトを緩和しながら、コンテンツ生成の微細かつ効果的な制御を実現する。
論文 参考訳(メタデータ) (2024-10-14T07:03:14Z) - EraseDraw: Learning to Draw Step-by-Step via Erasing Objects from Images [24.55843674256795]
以前の作業は、画像のグローバルな変更、非現実的な空間的な場所へのオブジェクト挿入、不正確な光の詳細の生成によって失敗することが多い。
我々は、最先端のモデルではオブジェクト挿入が不十分であるが、オブジェクトを削除し、自然画像の背景を非常によく消し去ることができることを観察した。
様々な領域にまたがる多様な挿入プロンプトと画像について,説得力のある結果を示す。
論文 参考訳(メタデータ) (2024-08-31T18:37:48Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Retrieval Robust to Object Motion Blur [54.34823913494456]
本研究では,動きのぼやけの影響を受けやすい画像のオブジェクト検索手法を提案する。
ぼやけたオブジェクト検索のための最初の大規模データセットを提示する。
提案手法は,新しいぼやけた検索データセット上で,最先端の検索手法より優れている。
論文 参考訳(メタデータ) (2024-04-27T23:22:39Z) - ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion [34.29147907526832]
拡散モデルは画像編集に革命をもたらしたが、しばしば物理法則に違反した画像を生成する。
本稿では,qcounterfactal データセットを中心とした実用的ソリューションを提案する。
このデータセット上で拡散モデルを微調整することで、オブジェクトを除去するだけでなく、シーンへの影響も除去できるのです。
論文 参考訳(メタデータ) (2024-03-27T17:59:52Z) - OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation
with Neural Radiance Fields [53.32527220134249]
ニューラル・レージアンス・フィールド(NeRF)の出現により,3次元シーン編集への関心が高まっている。
現在の手法では、時間を要するオブジェクトのラベル付け、特定のターゲットを削除する能力の制限、削除後のレンダリング品質の妥協といった課題に直面している。
本稿では, OR-NeRF と呼ばれる新しいオブジェクト除去パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-17T18:18:05Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。
我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。
より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文 参考訳(メタデータ) (2021-08-15T15:46:57Z) - Omnimatte: Associating Objects and Their Effects in Video [100.66205249649131]
映像内のオブジェクトに関連するシーン効果は通常、コンピュータビジョンによって見過ごされる。
本研究では,映像におけるオブジェクトとその効果を自動的に関連付ける,この新しい問題を解決するための一歩を踏み出す。
私達のモデルは手動ラベルなしで自己監督された方法で入力ビデオでだけ訓練され、ジェネリックです---任意目的およびいろいろな効果のためのオムニマトを自動的に作り出します。
論文 参考訳(メタデータ) (2021-05-14T17:57:08Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。