論文の概要: VDOR: A Video-based Dataset for Object Removal via Sequence Consistency
- arxiv url: http://arxiv.org/abs/2501.07397v2
- Date: Fri, 31 Jan 2025 06:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:58:57.449240
- Title: VDOR: A Video-based Dataset for Object Removal via Sequence Consistency
- Title(参考訳): VDOR:シーケンス一貫性によるオブジェクト削除のためのビデオベースデータセット
- Authors: Runpu Wei, Shuo Zhang, Zhonghao Yan, Zijin Yin, Xueyi Wang, Kongming Liang, Zhanyu Ma,
- Abstract要約: オブジェクトの削除に関連する既存のデータセットは、モデルの検証と最適化の貴重な基盤となる。
本稿では,現実的な照明を意識したオブジェクト除去データセットを構築するための,新しいビデオベースのアノテーションパイプラインを提案する。
連続した実世界のビデオフレームを活用することで、分配ギャップを最小化し、リアルなライティングと影のバリエーションを正確にキャプチャする。
- 参考スコア(独自算出の注目度): 19.05827956984347
- License:
- Abstract: Object removal, as a sub-task of image inpainting, has garnered significant attention in recent years. Existing datasets related to object removal serve a valuable foundation for model validation and optimization. However, they mainly rely on inpainting techniques to generate pseudo-removed results, leading to distribution gaps between synthetic and real-world data. While some real-world datasets mitigate these issues, they face challenges such as limited scalability, high annotation costs, and unrealistic representations of lighting and shadows. To address these limitations, we propose a novel video-based annotation pipeline for constructing a realistic illumination-aware object removal dataset. Leveraging this pipeline, we introduce VDOR, a dataset specifically designed for object removal tasks, which comprises triplets of original frame images with objects, background images without objects, and corresponding masks. By leveraging continuous real-world video frames, we minimize distribution gaps and accurately capture realistic lighting and shadow variations, ensuring close alignment with real-world scenarios. Our approach significantly reduces annotation effort while providing a robust foundation for advancing object removal research.
- Abstract(参考訳): 物体の除去は、画像のインペイントのサブタスクとして、近年大きな注目を集めている。
オブジェクトの削除に関連する既存のデータセットは、モデルの検証と最適化の貴重な基盤となる。
しかし、それらは主に、擬似除去結果を生成するための塗装技術に依存しており、合成データと実世界のデータの分配ギャップが生じる。
現実のデータセットの中にはこれらの問題を緩和するものもあるが、スケーラビリティの制限、アノテーションのコストの高さ、照明と影の非現実的な表現といった課題に直面している。
これらの制約に対処するため、現実的な照明対応オブジェクト除去データセットを構築するためのビデオベースのアノテーションパイプラインを提案する。
このパイプラインを活用して、オブジェクト除去タスクに特化したデータセットであるVDORを導入する。
連続した現実世界のビデオフレームを活用することで、分配ギャップを最小化し、リアルな照明と影のバリエーションを正確に捉え、現実のシナリオと密接な整合性を確保する。
提案手法は,オブジェクト除去研究を進めるための堅牢な基盤を提供しながら,アノテーションの労力を大幅に削減する。
関連論文リスト
- MagicEraser: Erasing Any Objects via Semantics-Aware Control [40.683569840182926]
オブジェクト消去タスクに適した拡散モデルに基づくフレームワークであるMagicEraserを紹介する。
MagicEraserは、望ましくないアーティファクトを緩和しながら、コンテンツ生成の微細かつ効果的な制御を実現する。
論文 参考訳(メタデータ) (2024-10-14T07:03:14Z) - EraseDraw: Learning to Draw Step-by-Step via Erasing Objects from Images [24.55843674256795]
以前の作業は、画像のグローバルな変更、非現実的な空間的な場所へのオブジェクト挿入、不正確な光の詳細の生成によって失敗することが多い。
我々は、最先端のモデルではオブジェクト挿入が不十分であるが、オブジェクトを削除し、自然画像の背景を非常によく消し去ることができることを観察した。
様々な領域にまたがる多様な挿入プロンプトと画像について,説得力のある結果を示す。
論文 参考訳(メタデータ) (2024-08-31T18:37:48Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion [34.29147907526832]
拡散モデルは画像編集に革命をもたらしたが、しばしば物理法則に違反した画像を生成する。
本稿では,qcounterfactal データセットを中心とした実用的ソリューションを提案する。
このデータセット上で拡散モデルを微調整することで、オブジェクトを除去するだけでなく、シーンへの影響も除去できるのです。
論文 参考訳(メタデータ) (2024-03-27T17:59:52Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。