論文の概要: VSCD: Video-based Scene Change Detection in Unaligned Scenes
- arxiv url: http://arxiv.org/abs/2605.20821v1
- Date: Wed, 20 May 2026 07:17:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.547085
- Title: VSCD: Video-based Scene Change Detection in Unaligned Scenes
- Title(参考訳): VSCD:不整合シーンにおける映像ベースのシーン変化検出
- Authors: Jiae Yoon, Ue-Hwan Kim,
- Abstract要約: ビデオによるシーン変化検出(VSCD)について紹介する。
コントラストのないカメラ動作下で、異なる時間に記録された同じ屋内空間の参照とクエリRGBビデオが与えられたクエリフレーム毎に画素単位の変更マスクを予測する。
この設定を研究するため、我々は1100万フレーム以上を画素精度変化マスクで注釈付けした大規模ベンチマークを構築した。
- 参考スコア(独自算出の注目度): 4.039245878626346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting what has changed in an environment is essential for long-term autonomy, yet most change detection settings assume fixed viewpoints, mild misalignment, or only a few changed objects. We introduce Video-based Scene Change Detection (VSCD), which predicts a pixel-wise change mask for each query frame, given a reference and a query RGB video of the same indoor space recorded at different times under unconstrained camera motion. The two videos are not temporally synchronized, and many object instances may appear or disappear. To study this setting, we build a large-scale benchmark with over 1.1 million frames annotated with pixel-accurate change masks, together with a real-world test set for evaluating transfer beyond simulation. We propose a query-centric multi-reference model that learns temporal matching implicitly from change-mask supervision, aligns candidate reference features to the query via local patch correspondence, and fuses per-candidate change features using frame-level and patch-level confidence before decoding a high-resolution mask once per frame. Our approach achieves state-of-the-art performance against strong image- and video-based baselines, and we validate its real-world impact by deploying it on a mobile robot for two downstream applications -- visual surveillance and object incremental learning.
- Abstract(参考訳): 環境の中で何が変わったかを検出することは、長期的な自律性には不可欠だが、ほとんどの変更検出設定は、固定された視点、軽度なミスアライメント、あるいはわずかに変更されたオブジェクトのみを前提としている。
そこで,ビデオベースScene Change Detection (VSCD)を導入し,非拘束カメラ動作下で異なる時間に記録された同一屋内空間の参照と照会RGBビデオから,照会フレームごとの画素ワイズ・マスクを推定する。
2つのビデオは時間的に同期されず、多くのオブジェクトインスタンスが出現または消失する可能性がある。
この設定を研究するために、我々は1100万フレームを超える画素精度変化マスクを付加した大規模ベンチマークと、シミュレーション以外の転送を評価するための実世界のテストセットを構築した。
本稿では、変更マスクの監督から暗黙的に時間的一致を学習し、候補参照特徴をローカルパッチ対応を介してクエリに整列させ、フレームレベルとパッチレベルの信頼性を用いて候補毎の変更特徴を融合し、1フレームあたりの高分解能マスクを復号するクエリ中心のマルチ参照モデルを提案する。
当社のアプローチは、強力なイメージベースラインとビデオベースラインに対する最先端のパフォーマンスを実現し、ビジュアル監視とオブジェクトインクリメンタル学習という2つのダウンストリームアプリケーションのためのモバイルロボットにデプロイすることで、実際の影響を検証する。
関連論文リスト
- SceneDiff: A Benchmark and Method for Multiview Object Change Detection [24.67954935241515]
SceneDiff Benchmarkはオブジェクトインスタンスアノテーションを使った最初のマルチビュー変更検出ベンチマークである。
また、マルチビューオブジェクト変更検出のための新しいトレーニング不要のアプローチであるSceneDiffを導入する。
提案手法は,3次元のキャプチャをアライメントし,対象領域を抽出し,空間的特徴と意味的特徴を比較して変化を検出する。
論文 参考訳(メタデータ) (2025-12-18T18:59:02Z) - Leveraging Geometric Priors for Unaligned Scene Change Detection [53.523333385654546]
Unaligned Scene Change Detectionは、視点アライメントを仮定することなく、異なるタイミングでキャプチャされた画像ペア間のシーン変化を検出することを目的としている。
非整合SCDの中核的課題に対処するために、初めて幾何学的事前を導入する。
視覚基盤モデルの強力な表現とそれらを統合した学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-14T14:31:08Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - Rethinking Remote Sensing Change Detection With A Mask View [6.3921187411592655]
リモートセンシング変化検出は、同じ領域で記録された2つ以上の画像を比較することを目的としているが、異なるスタンプで、地理的実体や環境要因の変化を評価する。
この欠点に対処するために、マスクビューによる変更検出を再考し、さらに、1)メタアーキテクチャCDMaskと2)インスタンスネットワークCDMaskFormerを提案する。
論文 参考訳(メタデータ) (2024-06-21T17:27:58Z) - MaskCD: A Remote Sensing Change Detection Network Based on Mask Classification [29.15203530375882]
深層学習を用いたリモートセンシング(RS)画像からの変化(CD)を文献的に広く研究している。
入力画像対から分類マスクを適応的に生成し,変化領域を検出するMaskCDを提案する。
ピクセルワイズ表現を学習可能なマスク提案に復号することで、望まれる変更対象を再構築する。
論文 参考訳(メタデータ) (2024-04-18T11:05:15Z) - Towards Robust Video Object Segmentation with Adaptive Object
Calibration [18.094698623128146]
ビデオオブジェクトセグメンテーション(VOS)は、参照フレームの注釈付きオブジェクトマスクを与えられたビデオのすべてのターゲットフレームにおけるオブジェクトのセグメンテーションを目的としている。
本稿では,オブジェクト表現を適応的に構築し,オブジェクトマスクを校正して強靭性を実現する,新しいディープネットワークを提案する。
本モデルは,既存の出版作品の最先端性能を達成し,摂動に対する優れた堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-02T17:51:29Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Temporal Early Exits for Efficient Video Object Detection [1.1470070927586016]
本稿では,フレーム単位の動画オブジェクト検出の計算複雑性を低減するため,時間的早期出口を提案する。
提案手法は,既存の手法と比較して,フレーム単位の動画オブジェクト検出の計算複雑性と実行を最大34倍に削減する。
論文 参考訳(メタデータ) (2021-06-21T15:49:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。