Fugu-MT 論文翻訳(概要): VDOR: A Video-based Dataset for Object Removal via Sequence Consistency

論文の概要: VDOR: A Video-based Dataset for Object Removal via Sequence Consistency

arxiv url: http://arxiv.org/abs/2501.07397v2
Date: Fri, 31 Jan 2025 06:41:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-03 14:50:17.604185
Title: VDOR: A Video-based Dataset for Object Removal via Sequence Consistency
Title（参考訳）: VDOR:シーケンス一貫性によるオブジェクト削除のためのビデオベースデータセット
Authors: Runpu Wei, Shuo Zhang, Zhonghao Yan, Zijin Yin, Xueyi Wang, Kongming Liang, Zhanyu Ma,
Abstract要約: オブジェクトの削除に関連する既存のデータセットは、モデルの検証と最適化の貴重な基盤となる。本稿では,現実的な照明を意識したオブジェクト除去データセットを構築するための,新しいビデオベースのアノテーションパイプラインを提案する。連続した実世界のビデオフレームを活用することで、分配ギャップを最小化し、リアルなライティングと影のバリエーションを正確にキャプチャする。
参考スコア（独自算出の注目度）: 19.05827956984347
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Object removal, as a sub-task of image inpainting, has garnered significant attention in recent years. Existing datasets related to object removal serve a valuable foundation for model validation and optimization. However, they mainly rely on inpainting techniques to generate pseudo-removed results, leading to distribution gaps between synthetic and real-world data. While some real-world datasets mitigate these issues, they face challenges such as limited scalability, high annotation costs, and unrealistic representations of lighting and shadows. To address these limitations, we propose a novel video-based annotation pipeline for constructing a realistic illumination-aware object removal dataset. Leveraging this pipeline, we introduce VDOR, a dataset specifically designed for object removal tasks, which comprises triplets of original frame images with objects, background images without objects, and corresponding masks. By leveraging continuous real-world video frames, we minimize distribution gaps and accurately capture realistic lighting and shadow variations, ensuring close alignment with real-world scenarios. Our approach significantly reduces annotation effort while providing a robust foundation for advancing object removal research.
Abstract（参考訳）: 物体の除去は、画像のインペイントのサブタスクとして、近年大きな注目を集めている。オブジェクトの削除に関連する既存のデータセットは、モデルの検証と最適化の貴重な基盤となる。しかし、それらは主に、擬似除去結果を生成するための塗装技術に依存しており、合成データと実世界のデータの分配ギャップが生じる。現実のデータセットの中にはこれらの問題を緩和するものもあるが、スケーラビリティの制限、アノテーションのコストの高さ、照明と影の非現実的な表現といった課題に直面している。これらの制約に対処するため、現実的な照明対応オブジェクト除去データセットを構築するためのビデオベースのアノテーションパイプラインを提案する。このパイプラインを活用して、オブジェクト除去タスクに特化したデータセットであるVDORを導入する。連続した現実世界のビデオフレームを活用することで、分配ギャップを最小化し、リアルな照明と影のバリエーションを正確に捉え、現実のシナリオと密接な整合性を確保する。提案手法は,オブジェクト除去研究を進めるための堅牢な基盤を提供しながら,アノテーションの労力を大幅に削減する。

関連論文リスト

ObjectClear: Complete Object Removal via Object-Effect Attention [56.2893552300215]
我々は、オブジェクトとそれに関連する視覚的アーティファクトの両方の正確なマスクとともに、オブジェクト効果と不要なペア画像を提供するOBERという、オブジェクト・エフェクト除去のための新しいデータセットを紹介した。本研究では,物体効果の注意機構を組み込んだ新しいフレームワーク ObjectClear を提案する。実験では、ObjectClearが既存のメソッドよりも優れており、特に複雑なシナリオにおいて、オブジェクト・エフェクトの除去品質と背景の忠実さの改善を実現している。
論文参考訳（メタデータ） (2025-05-28T17:51:17Z)
OmnimatteZero: Training-free Real-time Omnimatte with Pre-trained Video Diffusion Models [31.48981364573974]
オムニマテゼロ(OmnimatteZero)は、オムニマテの既訓練ビデオ拡散モデルを利用したトレーニング不要の手法である。ビデオからオブジェクトを取り除き、個々のオブジェクト層をその効果とともに抽出し、それらのオブジェクトを新しいビデオに合成する。自己注意マップは、オブジェクトとそのフットプリントに関する情報をキャプチャし、それらを使ってオブジェクトの効果を描き、クリーンな背景を残します。
論文参考訳（メタデータ） (2025-03-23T11:26:48Z)
Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文参考訳（メタデータ） (2024-11-26T20:26:49Z)
Generative Omnimatte: Learning to Decompose Video into Layers [29.098471541412113]
本報告では,全方位問題に対処する新しい生成階層化ビデオ分解フレームワークを提案する。私たちの中核となる考え方は、特定の物体によって引き起こされるシーン効果を識別し除去するために、ビデオ拡散モデルを訓練することです。我々は,このモデルを,小さく,慎重にキュレートしたデータセットを用いて,既存のビデオインペイントモデルから微調整できることを示す。
論文参考訳（メタデータ） (2024-11-25T18:59:57Z)
MagicEraser: Erasing Any Objects via Semantics-Aware Control [40.683569840182926]
オブジェクト消去タスクに適した拡散モデルに基づくフレームワークであるMagicEraserを紹介する。 MagicEraserは、望ましくないアーティファクトを緩和しながら、コンテンツ生成の微細かつ効果的な制御を実現する。
論文参考訳（メタデータ） (2024-10-14T07:03:14Z)
EraseDraw: Learning to Draw Step-by-Step via Erasing Objects from Images [24.55843674256795]
以前の作業は、画像のグローバルな変更、非現実的な空間的な場所へのオブジェクト挿入、不正確な光の詳細の生成によって失敗することが多い。我々は、最先端のモデルではオブジェクト挿入が不十分であるが、オブジェクトを削除し、自然画像の背景を非常によく消し去ることができることを観察した。様々な領域にまたがる多様な挿入プロンプトと画像について,説得力のある結果を示す。
論文参考訳（メタデータ） (2024-08-31T18:37:48Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
Retrieval Robust to Object Motion Blur [54.34823913494456]
本研究では,動きのぼやけの影響を受けやすい画像のオブジェクト検索手法を提案する。ぼやけたオブジェクト検索のための最初の大規模データセットを提示する。提案手法は,新しいぼやけた検索データセット上で,最先端の検索手法より優れている。
論文参考訳（メタデータ） (2024-04-27T23:22:39Z)
ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion [34.29147907526832]
拡散モデルは画像編集に革命をもたらしたが、しばしば物理法則に違反した画像を生成する。本稿では,qcounterfactal データセットを中心とした実用的ソリューションを提案する。このデータセット上で拡散モデルを微調整することで、オブジェクトを除去するだけでなく、シーンへの影響も除去できるのです。
論文参考訳（メタデータ） (2024-03-27T17:59:52Z)
OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation with Neural Radiance Fields [53.32527220134249]
ニューラル・レージアンス・フィールド(NeRF)の出現により,3次元シーン編集への関心が高まっている。現在の手法では、時間を要するオブジェクトのラベル付け、特定のターゲットを削除する能力の制限、削除後のレンダリング品質の妥協といった課題に直面している。本稿では, OR-NeRF と呼ばれる新しいオブジェクト除去パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-17T18:18:05Z)
DisCoScene: Spatially Disentangled Generative Radiance Fields for Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2022-12-22T18:59:59Z)
Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文参考訳（メタデータ） (2022-12-13T01:36:56Z)
Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文参考訳（メタデータ） (2021-08-15T15:46:57Z)
Omnimatte: Associating Objects and Their Effects in Video [100.66205249649131]
映像内のオブジェクトに関連するシーン効果は通常、コンピュータビジョンによって見過ごされる。本研究では,映像におけるオブジェクトとその効果を自動的に関連付ける,この新しい問題を解決するための一歩を踏み出す。私達のモデルは手動ラベルなしで自己監督された方法で入力ビデオでだけ訓練され、ジェネリックです---任意目的およびいろいろな効果のためのオムニマトを自動的に作り出します。
論文参考訳（メタデータ） (2021-05-14T17:57:08Z)
Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文参考訳（メタデータ） (2021-05-07T03:49:26Z)
REGRAD: A Large-Scale Relational Grasp Dataset for Safe and Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。データセットは2D画像と3Dポイントクラウドの両方で収集されます。ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文参考訳（メタデータ） (2021-04-29T05:31:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。