論文の概要: SceneDiff: A Benchmark and Method for Multiview Object Change Detection
- arxiv url: http://arxiv.org/abs/2512.16908v1
- Date: Thu, 18 Dec 2025 18:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.248088
- Title: SceneDiff: A Benchmark and Method for Multiview Object Change Detection
- Title(参考訳): SceneDiff:マルチビューオブジェクト変更検出のためのベンチマークと方法
- Authors: Yuqun Wu, Chih-hao Lin, Henry Che, Aditi Tiwari, Chuhang Zou, Shenlong Wang, Derek Hoiem,
- Abstract要約: SceneDiff Benchmarkはオブジェクトインスタンスアノテーションを使った最初のマルチビュー変更検出ベンチマークである。
また、マルチビューオブジェクト変更検出のための新しいトレーニング不要のアプローチであるSceneDiffを導入する。
提案手法は,3次元のキャプチャをアライメントし,対象領域を抽出し,空間的特徴と意味的特徴を比較して変化を検出する。
- 参考スコア(独自算出の注目度): 24.67954935241515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the problem of identifying objects that have been added, removed, or moved between a pair of captures (images or videos) of the same scene at different times. Detecting such changes is important for many applications, such as robotic tidying or construction progress and safety monitoring. A major challenge is that varying viewpoints can cause objects to falsely appear changed. We introduce SceneDiff Benchmark, the first multiview change detection benchmark with object instance annotations, comprising 350 diverse video pairs with thousands of changed objects. We also introduce the SceneDiff method, a new training-free approach for multiview object change detection that leverages pretrained 3D, segmentation, and image encoding models to robustly predict across multiple benchmarks. Our method aligns the captures in 3D, extracts object regions, and compares spatial and semantic region features to detect changes. Experiments on multi-view and two-view benchmarks demonstrate that our method outperforms existing approaches by large margins (94% and 37.4% relative AP improvements). The benchmark and code will be publicly released.
- Abstract(参考訳): 我々は、同じシーンの1対のキャプチャ(画像やビデオ)を異なる時間で追加、削除、移動したオブジェクトを識別する問題を調査する。
このような変化を検出することは、ロボットタイディイングや建設の進捗、安全監視など、多くのアプリケーションにとって重要である。
大きな課題は、さまざまな視点が、オブジェクトが誤って変更される可能性があることだ。
SceneDiff Benchmarkは、オブジェクトインスタンスアノテーションを備えた最初のマルチビュー変更検出ベンチマークで、350の多様なビデオペアと数千のオブジェクトが変更されている。
また、事前訓練された3D、セグメンテーション、画像エンコーディングモデルを利用して、複数のベンチマーク間で堅牢な予測を行うマルチビューオブジェクト変更検出のための、新しいトレーニング不要なアプローチであるSceneDiff法を導入する。
提案手法は,3次元のキャプチャをアライメントし,対象領域を抽出し,空間的特徴と意味的特徴を比較して変化を検出する。
マルチビューと2ビューのベンチマーク実験により、我々の手法は既存の手法よりも大きなマージン(94%と37.4%の相対的なAP改善)で優れていることが示された。
ベンチマークとコードは公開される予定だ。
関連論文リスト
- Multi-View Pose-Agnostic Change Localization with Zero Labels [4.997375878454274]
複数の視点から情報を統合したラベルのないポーズに依存しない変化検出手法を提案する。
ポストチェンジシーンの5つの画像で、我々のアプローチは3DGSで追加の変更チャンネルを学習できる。
変更対応の3Dシーン表現により、見当たらない視点の正確な変更マスクの生成が可能となる。
論文 参考訳(メタデータ) (2024-12-05T06:28:54Z) - 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - Tracking Passengers and Baggage Items using Multiple Overhead Cameras at
Security Checkpoints [2.021502591596062]
空港の検問所のセキュリティシナリオのために,オーバーヘッドカメラビデオ中の複数のオブジェクトを追跡する新しいフレームワークを提案する。
オーバヘッド画像からのインスタンスセグメンテーションの不確実性に関するモデル情報を提供するために,自己監視学習(SSL)手法を提案する。
この結果から,自己超越はモデルの推定時間を増大させることなく,オブジェクト検出精度を最大42%向上させることがわかった。
論文 参考訳(メタデータ) (2022-12-31T12:57:09Z) - The Change You Want to See [91.3755431537592]
同じシーンの2つのイメージが与えられた場合、その変更を自動的に検出できることは、様々な領域で実用的応用をもたらす。
画像対の「オブジェクトレベル」変化を、視点や照明の違いにかかわらず検出することを目的として、変化検出問題に取り組む。
論文 参考訳(メタデータ) (2022-09-28T18:10:09Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Objects are Different: Flexible Monocular 3D Object Detection [87.82253067302561]
そこで本研究では,乱れたオブジェクトを明示的に分離し,オブジェクト深度推定のための複数のアプローチを適応的に組み合わせたモノクル3次元オブジェクト検出のためのフレキシブルなフレームワークを提案する。
実験の結果,本手法はkittiベンチマークテストセットにおいて,中等度レベルが27%,硬度が30%と,最先端法を27%上回った。
論文 参考訳(メタデータ) (2021-04-06T07:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。