論文の概要: Large-Small Model Collaboration for Farmland Semantic Change Detection
- arxiv url: http://arxiv.org/abs/2605.12282v1
- Date: Tue, 12 May 2026 15:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.976359
- Title: Large-Small Model Collaboration for Farmland Semantic Change Detection
- Title(参考訳): 農地セマンティックな変化検出のための大規模モデルコラボレーション
- Authors: Xinjia Li, Rui Wang, Qiurong Peng, Lingfei Ye, Dengrong Zhang, Haoyu Zhang,
- Abstract要約: 耕作地保全に不可欠な農地セマンティックチェンジ検出
既存のベンチマークとモデルは、きめ細かい農地転換モニタリングには不十分である。
本研究では,タスク駆動型小型視覚モデルと凍結型大規模視覚言語モデルを統合した大規模協調型SCDフレームワークを提案する。
本手法は,HZNU-FCD 上の 97.63% F1,96.32% IoU,96.35% SCD_IoU_mean を6.65M のトレーニングパラメータで達成する。
- 参考スコア(独自算出の注目度): 10.406965352353307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Farmland Semantic Change Detection (SCD) is essential for cultivated land protection, yet existing benchmarks and models remain insufficient for fine-grained farmland conversion monitoring. Current datasets often lack dedicated "from-to" annotations, while visual change detection models are easily disturbed by phenology-induced pseudo-changes caused by crop rotation, seasonal variation, and illumination differences. To address these challenges, we construct HZNU-FCD, a large-scale fine-grained farmland SCD benchmark with a unified five-class farmland-to-non-farmland annotation protocol. It contains 4,588 bitemporal image pairs with pixel-level labels for practical farmland protection. Based on this benchmark, we propose a large-small collaborative SCD framework that integrates a task-driven small visual model with a frozen large vision-language model. The small model, Fine-grained Difference-aware Mamba (FD-Mamba), learns dense change representations for boundary preservation and small-region localization. The large-model pathway, Cross-modal Logical Arbitration (CMLA), introduces CLIP-based textual priors for prompt-guided semantic arbitration and pseudo-change suppression. To enable effective collaboration, we design a hard-region co-training strategy that supervises the CMLA semantic score map only on low-confidence pixels. Experiments show that our method achieves 97.63% F1, 96.32% IoU, and 96.35% SCD_IoU_mean on HZNU-FCD with only 6.65M trainable parameters. Compared with the multimodal ChangeCLIP-ViT, which leverages vision-language information for change detection, our method improves F1 by 10.19 percentage points on HZNU-FCD. It also achieves 91.43% F1 and 84.21% IoU on LEVIR-CD, and 93.85% F1 and 88.41% IoU on WHU-CD, demonstrating strong robustness and generalization. The code is available at https://github.com/Lovelymili/FD-Mamba.
- Abstract(参考訳): 農地セマンティック・チェンジ検出(SCD)は、耕作地保護には不可欠であるが、既存のベンチマークやモデルは、きめ細かい農地転換モニタリングには不十分である。
現在のデータセットは専用の"to-to"アノテーションを欠いていることが多いが、視覚変化検出モデルは、作物の回転、季節変動、照明の違いによって引き起こされる現象学による擬似変化によって容易に妨害される。
これらの課題に対処するため、HZNU-FCDは、大規模なファームランドSCDベンチマークであり、統一された5クラスファームランド非ファームランドアノテーションプロトコルである。
4,588枚のバイテンポラルイメージ対とピクセルレベルのラベルが組み込まれている。
本稿では,タスク駆動型小型視覚モデルと凍結型大規模視覚言語モデルを統合する,大規模協調型SCDフレームワークを提案する。
小モデルであるFD-Mamba(FD-Mamba)は境界保存と小領域局所化のための密度変化表現を学習する。
大規模モデル経路であるCLILA(CLIP-based textual priors for prompt-guided semantic arbitration and pseudo-change suppress)が導入された。
効果的なコラボレーションを実現するため,我々はCMLAのセマンティックスコアマップを低信頼画素のみに監督するハードリージョン協調学習戦略を設計する。
実験の結果,HZNU-FCDのトレーニング可能なパラメータは665万で,97.63%のF1,96.32%のIoU,96.35%のSCD_IoU_meanが得られた。
変化検出に視覚言語情報を利用するマルチモーダルChangeCLIP-ViTと比較して,HZNU-FCDではF1を10.19ポイント改善する。
LEVIR-CDでは91.43%のF1と84.21%のIoU、WHU-CDでは93.85%のF1と88.41%のIoUを達成している。
コードはhttps://github.com/Lovelymili/FD-Mamba.comで公開されている。
関連論文リスト
- TinyBayes: Closed-Form Bayesian Inference via Jacobi Prior for Real-Time Image Classification on Edge Devices [0.0]
TinyBayesは、クローズドフォームのベイズ分類器と、作物病検出のためのモバイルグレードのコンピュータビジョンパイプラインを組み合わせるためのフレームワークである。
Jacobi-DMRはパイプラインに13.5KBしか追加せず、総モデルサイズは9.5MBである。
我々はRandom Forest, SVM, Ridge, Lasso, Elastic Net, XG, Jacobi-GPの7つの分類器をベンチマークした。
論文 参考訳(メタデータ) (2026-05-07T14:26:10Z) - SfMamba: Efficient Source-Free Domain Adaptation via Selective Scan Modeling [60.860172819390954]
ソースフリードメイン適応(SFDA)は、未ラベルのターゲットドメインにソースプレトレーニングされたモデルを適用するという課題に取り組む。
我々はSfMambaというフレームワークを提案し、ソースフリーモデル転送における安定した依存性について検討する。
論文 参考訳(メタデータ) (2026-01-13T14:53:47Z) - PeftCD: Leveraging Vision Foundation Models with Parameter-Efficient Fine-Tuning for Remote Sensing Change Detection [9.241842285556134]
PeftCDはVision Foundation Models上に構築された変更検出フレームワークである。
重量共有エンコーダはVFMから派生したもので、LoRAとAdapterモジュールはシームレスに統合される。
複数の公開データセットにまたがって最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-11T16:08:43Z) - Calibrated and Robust Foundation Models for Vision-Language and Medical Image Tasks Under Distribution Shift [2.292525568003776]
CLIPやSAMといった基礎モデルには、低ショット転送学習による高度なコンピュータビジョンと医療画像があり、限られたデータでCADDを支援する。
両課題に対処するためのFIPとCMPの融合である textbfStaRFM を提案する。
パッチワイド正規化により3Dに拡張されたFIPを適用し、埋め込みシフトを減らすとともに、ボクセルレベルの予測のために修正されたCMPをセグメンテーションの不確実性に適用する。
論文 参考訳(メタデータ) (2025-07-12T09:39:07Z) - GroupMamba: Efficient Group-Based Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、最近、四次計算の複雑さで長距離依存を捉えることを約束している。
しかし、純粋にSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最先端の性能を達成するために重要な課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - Deep Metric Learning for Unsupervised Remote Sensing Change Detection [60.89777029184023]
リモートセンシング変化検出(RS-CD)は、マルチテンポラルリモートセンシング画像(MT-RSI)から関連する変化を検出することを目的とする。
既存のRS-CD法の性能は、大規模な注釈付きデータセットのトレーニングによるものである。
本稿では,これらの問題に対処可能なディープメトリック学習に基づく教師なしCD手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:52:45Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。