Fugu-MT 論文翻訳(概要): MemOVCD: Training-Free Open-Vocabulary Change Detection via Cross-Temporal Memory Reasoning and Global-Local Adaptive Rectification

論文の概要: MemOVCD: Training-Free Open-Vocabulary Change Detection via Cross-Temporal Memory Reasoning and Global-Local Adaptive Rectification

arxiv url: http://arxiv.org/abs/2604.26774v1
Date: Wed, 29 Apr 2026 15:05:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-30 15:59:36.452727
Title: MemOVCD: Training-Free Open-Vocabulary Change Detection via Cross-Temporal Memory Reasoning and Global-Local Adaptive Rectification
Title（参考訳）: MemOVCD: 時間外メモリ推論とグローバル局所適応的整形による学習自由なオープンボキャブラリ変化検出
Authors: Zuzheng Kuang, Honghao Chang, Boqiang Liang, Haoqian Wang, Lijun He, Fan Li, Haixia Bi,
Abstract要約: Open-vocabulary Change Detectionは、定義済みのカテゴリを使わずに、両時間的リモートセンシング画像の意味的変化を特定することを目的としている。本稿では,時間外メモリ推論とグローバル局所適応補正に基づく学習自由なオープン語彙変化検出フレームワークであるMemOVCDを提案する。
参考スコア（独自算出の注目度）: 25.164480665248792
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open-vocabulary change detection aims to identify semantic changes in bi-temporal remote sensing images without predefined categories. Recent methods combine foundation models such as SAM, DINO and CLIP, but typically process each timestamp independently or interact only at the final comparison stage. Such paradigms suffer from insufficient temporal coupling during semantic reasoning, which limits their ability to distinguish genuine semantic changes from non-semantic appearance discrepancies. In addition, patch-dominant inference on high-resolution images often weakens global semantic continuity and produces fragmented change regions. To address these issues, we propose MemOVCD, a training-free open-vocabulary change detection framework based on cross-temporal memory reasoning and global-local adaptive rectification. Specifically, we reformulate bi-temporal change detection as a two-frame tracking problem and introduce weighted bidirectional propagation to aggregate semantic evidence from both temporal directions. To stabilize memory propagation across large temporal gaps, we construct histogram-aligned transition frames to smooth abrupt appearance changes. Moreover, a global-local adaptive rectification strategy adaptively fuses local and global-view predictions, improving spatial consistency while preserving fine-grained details. Experiments on five benchmarks demonstrate that MemOVCD achieves favorable performance on two change detection tasks, validating its effectiveness and generalization under diverse open-vocabulary settings.
Abstract（参考訳）: Open-vocabulary Change Detectionは、定義済みのカテゴリを使わずに、両時間的リモートセンシング画像の意味的変化を特定することを目的としている。最近の手法はSAM、DINO、CLIPといった基礎モデルを組み合わせているが、一般的には個々のタイムスタンプを個別に処理するか、最終比較段階でのみ相互作用する。このようなパラダイムは意味的推論において時間的結合が不十分であり、意味的変化と非意味的外見の相違を区別する能力を制限する。さらに、高解像度画像に対するパッチ優位推論は、大域的な意味的連続性を弱め、断片化された変化領域を生成することが多い。これらの問題に対処するため,我々は,時間的時間的メモリ推論とグローバルな適応的修正に基づく,トレーニング不要なオープン語彙変化検出フレームワークであるMemOVCDを提案する。具体的には、両時間的変化検出を2フレーム追跡問題として再構成し、両時間的方向から意味的証拠を集約する重み付き双方向伝搬を導入する。大きな時間的ギャップをまたいだメモリ伝搬を安定化するため,スムーズな出現変化のためにヒストグラム整列遷移フレームを構築した。さらに,局所的適応的修正戦略は局所的およびグローバルな視点予測を適応的に融合させ,細粒度を保ちながら空間的整合性を向上させる。 5つのベンチマーク実験により、MemOVCDは2つの変更検出タスクにおいて良好な性能を示し、その有効性と様々なオープン語彙設定での一般化を検証した。

関連論文リスト

Towards Domain-Generalized Open-Vocabulary Object Detection: A Progressive Domain-invariant Cross-modal Alignment Method [59.30562121800656]
Open-Vocabulary Object Detectionは、新しいカテゴリへの一般化において大きな成功を収めた。我々は、OVODパラダイムの原則的な見直しを行い、根本的な脆弱性を明らかにする。 PICA(Progressive Domain-invariant Cross-Modal Alignment)を提案する。
論文参考訳（メタデータ） (2026-03-29T07:39:31Z)
Time2General: Learning Spatiotemporal Invariant Representations for Domain-Generalization Video Semantic Segmentation [9.929390581043334]
ドメイン一般化ビデオセマンティック(DGVSS)は、単一のラベル付き駆動ドメインでトレーニングされる。 Time2Generalは、以前のDGVSSとVSSベースラインよりも、クロスドメインの精度と時間的安定性を大幅に改善する。
論文参考訳（メタデータ） (2026-02-10T10:55:25Z)
TaCo: Capturing Spatio-Temporal Semantic Consistency in Remote Sensing Change Detection [54.22717266034045]
Ta-Coは時間的意味遷移のための一貫したセマンティックネットワークである。我々は,Ta-Coがリモートセンシング検出タスクにおいて一貫したSOTA性能を実現することを示す。この設計は推論中に余分な計算オーバーヘッドを伴わずにかなりの利得を得ることができる。
論文参考訳（メタデータ） (2025-11-25T13:44:29Z)
Morphing Through Time: Diffusion-Based Bridging of Temporal Gaps for Robust Alignment in Change Detection [51.56484100374058]
既存の変更検出ネットワークを変更することなく空間的・時間的ロバスト性を改善するモジュールパイプラインを導入する。拡散モジュールは、大きな外観ギャップをブリッジする中間変形フレームを合成し、RoMaは段階的に対応を推定できる。 LEVIR-CD、WHU-CD、DSIFN-CDの実験は、登録精度と下流変化検出の両方において一貫した利得を示した。
論文参考訳（メタデータ） (2025-11-11T08:40:28Z)
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。大規模な実験ではPPADの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-05-26T14:42:35Z)
Detect Changes like Humans: Incorporating Semantic Priors for Improved Change Detection [52.62459671461816]
本稿では,視覚基盤モデルからのセマンティックな先入観を取り入れ,変化を検出する能力の向上について検討する。人間の視覚パラダイムにインスパイアされた新しいデュアルストリーム特徴デコーダは、意味認識特徴と差認識特徴を組み合わせることで変化を区別するために導出される。
論文参考訳（メタデータ） (2024-12-22T08:27:15Z)
A Late-Stage Bitemporal Feature Fusion Network for Semantic Change Detection [32.112311027857636]
そこで本研究では,意味変化検出の課題に対処するため,新しい2段階の時間的特徴融合ネットワークを提案する。具体的には,特徴融合を強化するため,局所的グローバルアテンショナルアグリゲーションモジュールを提案し,重要なセマンティクスを強調するために,局所的グローバルなコンテキスト拡張モジュールを提案する。提案モデルにより,両データセットの最先端性能が向上する。
論文参考訳（メタデータ） (2024-06-15T16:02:10Z)
ChangeBind: A Hybrid Change Encoder for Remote Sensing Change Detection [16.62779899494721]
変化検出(CD)は、異なる時刻スタンプで同じ地理的領域間の意味的変化を検出することを目的とした、リモートセンシング(RS)の基本課題である。本稿では,バイテンポラルRS画像における意味変化をエンコードする,効果的なSiameseベースのフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-26T17:47:14Z)
Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文参考訳（メタデータ） (2022-09-10T19:04:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。