論文の概要: OmniOVCD: Streamlining Open-Vocabulary Change Detection with SAM 3
- arxiv url: http://arxiv.org/abs/2601.13895v1
- Date: Tue, 20 Jan 2026 12:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.301287
- Title: OmniOVCD: Streamlining Open-Vocabulary Change Detection with SAM 3
- Title(参考訳): OmniOVCD:SAM 3によるオープン語彙変化検出の合理化
- Authors: Xu Zhang, Danyang Li, Yingjie Xia, Xiaohang Dong, Hualong Yu, Jianye Wang, Qicheng Li,
- Abstract要約: Open-Vocabulary Change Detection (OVCD)は、事前に定義されたカテゴリへの依存を減らすことを目的としている。
本稿では,OVCD用に設計されたスタンドアロンフレームワークであるOmniOVCDを提案する。
4つの公開ベンチマークの実験では、IoUスコアは67.2、66.5、24.5、27.1(クラス平均)である。
- 参考スコア(独自算出の注目度): 19.94566126701934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Change Detection (CD) is a fundamental task in remote sensing. It monitors the evolution of land cover over time. Based on this, Open-Vocabulary Change Detection (OVCD) introduces a new requirement. It aims to reduce the reliance on predefined categories. Existing training-free OVCD methods mostly use CLIP to identify categories. These methods also need extra models like DINO to extract features. However, combining different models often causes problems in matching features and makes the system unstable. Recently, the Segment Anything Model 3 (SAM 3) is introduced. It integrates segmentation and identification capabilities within one promptable model, which offers new possibilities for the OVCD task. In this paper, we propose OmniOVCD, a standalone framework designed for OVCD. By leveraging the decoupled output heads of SAM 3, we propose a Synergistic Fusion to Instance Decoupling (SFID) strategy. SFID first fuses the semantic, instance, and presence outputs of SAM 3 to construct land-cover masks, and then decomposes them into individual instance masks for change comparison. This design preserves high accuracy in category recognition and maintains instance-level consistency across images. As a result, the model can generate accurate change masks. Experiments on four public benchmarks (LEVIR-CD, WHU-CD, S2Looking, and SECOND) demonstrate SOTA performance, achieving IoU scores of 67.2, 66.5, 24.5, and 27.1 (class-average), respectively, surpassing all previous methods.
- Abstract(参考訳): 変更検出(CD)はリモートセンシングの基本課題である。
時間の経過とともに土地被覆の進化をモニターする。
これに基づいて、OVCD(Open-Vocabulary Change Detection)が新たな要件を導入している。
事前に定義されたカテゴリへの依存を減らすことを目的としている。
既存のトレーニング不要のOVCDメソッドは、主にCLIPを使用してカテゴリを識別する。
これらの手法は特徴を抽出するためにDINOのような余分なモデルも必要である。
しかし、異なるモデルを組み合わせることは、しばしば特徴の一致に問題を引き起こし、システムを不安定にする。
最近、Segment Anything Model 3 (SAM3) が導入されている。
セグメンテーションと識別機能を1つのプロンプト可能なモデルに統合し、OVCDタスクに新たな可能性を提供する。
本稿では,OVCD用に設計されたスタンドアロンフレームワークであるOmniOVCDを提案する。
SAM 3の分離された出力ヘッドを活用することにより、Synergistic Fusion to Instance Decoupling(SFID)戦略を提案する。
SFIDはまずSAM 3のセマンティック、インスタンス、プレゼンスを融合してランドカバーマスクを構築し、その後、変更比較のために個別のインスタンスマスクに分解する。
この設計は、カテゴリ認識の精度を保ち、画像間のインスタンスレベルの一貫性を維持する。
その結果、モデルが正確な変更マスクを生成することができる。
4つの公開ベンチマーク(LEVIR-CD、WHU-CD、S2Looking、SECOND)の実験では、SOTAのパフォーマンスが示され、IoUスコアは67.2、66.5、24.5、27.1(クラス平均)となり、全ての従来の手法を上回った。
関連論文リスト
- UniVCD: A New Method for Unsupervised Change Detection in the Open-Vocabulary Era [0.0]
変化検出(CD)は、多時間観測によるシーン変化を特定し、都市開発や環境モニタリングに広く利用されている。
既存のCD手法の多くは教師あり学習に依存しており、パフォーマンスはデータセットに依存し、高いアノテーションコストがかかる。
凍ったSAM2とCLIP上に構築された教師なしのオープン語彙変化検出手法Unified Open-Vocabulary Change Detection (UniVCD)を提案する。
論文 参考訳(メタデータ) (2025-12-15T08:42:23Z) - SegEarth-OV3: Exploring SAM 3 for Open-Vocabulary Semantic Segmentation in Remote Sensing Images [51.42466259821335]
我々は, SAM 3 をリモートセンシング OVSS タスクに適用するための予備的な検討を行った。
まず,SAM 3のセマンティックセグメンテーションヘッドとトランスフォーマーデコーダの出力を組み合わせたマスク融合戦略を実装した。
第2に、シーンに存在しないカテゴリをフィルタリングするために、プレゼンスヘッドからのプレゼンススコアを利用する。
論文 参考訳(メタデータ) (2025-12-09T15:42:28Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - Adapting SAM via Cross-Entropy Masking for Class Imbalance in Remote Sensing Change Detection [0.0]
基礎モデルはコンピュータビジョンの様々な領域で大きな成功を収めた。
そのような基礎モデルの1つは、イメージ内のオブジェクトを正確にセグメント化できるSegment Any Model (SAM)である。
リモートセンシング変化検出(RSCD)と時空間特徴強調(STFE)とマルチスケールデコーダ融合(MSDF)を用いてSAMエンコーダを微調整し、複数スケールで変化を堅牢に検出することを提案する。
論文 参考訳(メタデータ) (2025-08-14T12:07:20Z) - SAM4EM: Efficient memory-based two stage prompt-free segment anything model adapter for complex 3D neuroscience electron microscopy stacks [6.277236040603983]
我々は、電子顕微鏡(EM)データにおける複雑な神経構造の3次元分割のための新しいアプローチSAM4EMを提案する。
コントリビューションには、2段マスクデコードを用いたSAM用プロンプトフリーアダプタの開発が含まれている。
宇宙のプロセスとシナプスのセグメンテーションのためのユニークなベンチマークデータセットをリリースする。
論文 参考訳(メタデータ) (2025-04-30T11:38:02Z) - Domain Adaptive Detection of MAVs: A Benchmark and Noise Suppression Network [26.26788054611157]
MAV検出の方法は、トレーニングセットとテストセットが同じ分布を持つと仮定する。
提案したデータセットに基づいて,クロスドメインMAV検出のための新しいベンチマークを提案する。
擬似ラベルの枠組みと大規模から小規模の訓練手順に基づく騒音抑制ネットワーク(NSN)
論文 参考訳(メタデータ) (2024-03-25T12:07:24Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z) - MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。
マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。
正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文 参考訳(メタデータ) (2022-04-27T02:28:12Z) - Joint Noise-Tolerant Learning and Meta Camera Shift Adaptation for
Unsupervised Person Re-Identification [60.36551512902312]
unsupervised person re-identification (re-ID) は、ラベルのないデータで識別モデルを学ぶことを目的としている。
一般的な方法としては、クラスタ化によって擬似ラベルを取得し、モデルを最適化するために使用する方法がある。
本稿では,両問題を解決するための統一フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-08T09:13:06Z) - Searching Central Difference Convolutional Networks for Face
Anti-Spoofing [68.77468465774267]
顔認識システムにおいて、顔の反偽造(FAS)が重要な役割を担っている。
最先端のFASメソッドの多くは、スタック化された畳み込みと専門家が設計したネットワークに依存している。
ここでは、中央差分畳み込み(CDC)に基づくフレームレベルの新しいFAS手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T12:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。