Fugu-MT 論文翻訳(概要): NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures

論文の概要: NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures

arxiv url: http://arxiv.org/abs/2602.18717v1
Date: Sat, 21 Feb 2026 04:51:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.259303
Title: NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures
Title（参考訳）: NeXt2Former-CD:モダンビジョンアーキテクチャによる効率的なリモートセンシング変更検出
Authors: Yufan Wang, Sokratis Makrogiannis, Chandra Kambhamettu,
Abstract要約: NeXt2Former-CDは、Siamese ConvNeXtエンコーダとDINOv3重み、変形可能な注目ベースの時間融合モジュール、Mask2Formerデコーダを統合するエンドツーエンドフレームワークである。提案モデルでは,SSMに基づくアプローチに匹敵する推論レイテンシを保ち,高分解能な変更検出タスクに有効であることが示唆された。
参考スコア（独自算出の注目度）: 11.733678383805897
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State Space Models (SSMs) have recently gained traction in remote sensing change detection (CD) for their favorable scaling properties. In this paper, we explore the potential of modern convolutional and attention-based architectures as a competitive alternative. We propose NeXt2Former-CD, an end-to-end framework that integrates a Siamese ConvNeXt encoder initialized with DINOv3 weights, a deformable attention-based temporal fusion module, and a Mask2Former decoder. This design is intended to better tolerate residual co-registration noise and small object-level spatial shifts, as well as semantic ambiguity in bi-temporal imagery. Experiments on LEVIR-CD, WHU-CD, and CDD datasets show that our method achieves the best results among the evaluated methods, improving over recent Mamba-based baselines in both F1 score and IoU. Furthermore, despite a larger parameter count, our model maintains inference latency comparable to SSM-based approaches, suggesting it is practical for high-resolution change detection tasks.
Abstract（参考訳）: State Space Models (SSMs)は、最近、リモートセンシング変更検出(CD)で好適なスケーリング特性のために注目を集めている。本稿では、競争力のある代替手段として、現代的畳み込みと注目に基づくアーキテクチャの可能性について検討する。我々は,DINOv3重みを初期化したSiamese ConvNeXtエンコーダと,変形可能なアテンションベース時間融合モジュールとMask2Formerデコーダを組み合わせたエンドツーエンドフレームワークNeXt2Former-CDを提案する。この設計は、残差共登録ノイズと小さなオブジェクトレベルの空間シフトを許容し、両時間画像における意味的あいまいさを許容することを目的としている。 LEVIR-CD, WHU-CD, CDDデータセットを用いた実験により,本手法はF1スコアとIoUスコアの両方において,最近のマンバベースラインよりも改善され,評価手法の最良の結果が得られることが示された。さらに,パラメータ数が大きいにもかかわらず,SSMに基づく手法に匹敵する推論遅延を保ち,高分解能な変化検出タスクに有効であることが示唆された。

関連論文リスト

GRAD-Former: Gated Robust Attention-based Differential Transformer for Change Detection [0.7865560760233441]
リモートセンシングにおける変化検出(CD)は、異なるタイミングで撮影された衛星画像間の意味的差異を特定することを目的としている。従来の変換器ベースの手法は、超高解像度(VHR)衛星画像に適用する場合、二次計算の複雑さに悩まされる。 GRAD-Formerは、モデルサイズを小さくすることで効率を保ちながら文脈理解を高める新しいフレームワークである。
論文参考訳（メタデータ） (2026-03-01T15:56:42Z)
Learning Invariant Visual Representations for Planning with Joint-Embedding Predictive World Models [9.714188952666918]
我々は,DINO-WMの10倍の低遅延空間で動作しながら,機能低下に対するロバスト性を改善した。 DINOv2、SimDINOv2、iBOTと組み合わせた場合、事前学習した視覚エンコーダの選択には依存せず、ロバスト性を維持している。
論文参考訳（メタデータ） (2026-02-20T22:19:46Z)
Foundation Model-Driven Semantic Change Detection in Remote Sensing Imagery [12.711361119734542]
RS基盤モデルPerAにより駆動される意味変化検出(SCD)手法であるPerASCDを提案する。複雑なSCDデコードパイプラインを単純化するモジュール型カスケードGated Decoder (CG-Decoder) を導入する。我々のデコーダは、2つの公開ベンチマークデータセット上での最先端(SOTA)性能を達成する。
論文参考訳（メタデータ） (2026-02-14T13:56:31Z)
Towards Remote Sensing Change Detection with Neural Memory [61.39582645714727]
ChangeTitansは、リモートセンシングによる変更検出のためのTitansベースのフレームワークである。まず、ニューラルネットワークと局所的な注意をセグメント化して統合するVTitansを提案する。次に,階層型VTitans-Adapterを提案する。第3に、2ストリーム融合モジュールであるTS-CBAMを導入し、擬似変化を抑制し、検出精度を高める。
論文参考訳（メタデータ） (2026-02-11T03:50:51Z)
FoBa: A Foreground-Background co-Guided Method and New Benchmark for Remote Sensing Semantic Change Detection [48.06921153684768]
本稿では,LevirSCDと呼ばれるリモートセマンティックチェンジ検出(SCD)のための新しいベンチマークを提案する。データセットには16の変更カテゴリと210の特定の変更タイプが含まれており、よりきめ細かいクラス定義がある。本研究では,フォアグラウンド・バックグラウンド・コグラウンドSCD(FoBa)手法を提案する。 FoBaは、現在のSOTA法と比較して、それぞれ1.48%、3.61%、および2.81%の改善を達成している。
論文参考訳（メタデータ） (2025-09-19T09:19:57Z)
DC-Mamba: Bi-temporal deformable alignment and scale-sparse enhancement for remote sensing change detection [9.305032436286773]
ChangeMamba のバックボーン上に構築された "align-then-enhance" フレームワークである DC-Mamba を紹介します。 1 つの軽量なプラグアンドプレイモジュールを統合する:(1) 意味的特徴レベルで空間的不一致を補正するための幾何学的認識を明示的に導入するbi-Temporal Deformable Alignment (BTDA) と、(2) 複数ソースのキューを用いて、最終分類の前にノイズを抑えながら高信頼度変化信号を選択的に増幅するScale-Sparse Change Amplifier (SSCA) である。
論文参考訳（メタデータ） (2025-09-19T03:49:23Z)
STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。 CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文参考訳（メタデータ） (2024-12-28T08:49:23Z)
Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector [72.05791402494727]
本稿では,CD-FSODを用いたクロスドメイン小ショット検出法について検討する。最小限のラベル付き例で、新しいドメインのための正確なオブジェクト検出器を開発することを目的としている。
論文参考訳（メタデータ） (2024-02-05T15:25:32Z)
Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文参考訳（メタデータ） (2023-07-17T07:12:29Z)
Joint Spatial-Temporal and Appearance Modeling with Transformer for Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文参考訳（メタデータ） (2022-05-31T01:19:18Z)
Enhancing Object Detection for Autonomous Driving by Optimizing Anchor Generation and Addressing Class Imbalance [0.0]
本研究では,より高速なR-CNNに基づく拡張型2次元物体検出器を提案する。より高速なr-cnnに対する修正は計算コストを増加させず、他のアンカーベースの検出フレームワークを最適化するために容易に拡張できる。
論文参考訳（メタデータ） (2021-04-08T16:58:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。