論文の概要: UniChange: Unifying Change Detection with Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2511.02607v1
- Date: Tue, 04 Nov 2025 14:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.074716
- Title: UniChange: Unifying Change Detection with Multimodal Large Language Model
- Title(参考訳): UniChange: マルチモーダル大言語モデルによる変更検出の統合
- Authors: Xu Zhang, Danyang Li, Xiaohang Dong, Tianhao Wu, Hualong Yu, Jianye Wang, Qicheng Li, Xiang Li,
- Abstract要約: 変化検出(CD)は,土地被覆動態のモニタリングと解析を行うための基本課題である。
現在のモデルは典型的には単一型アノテートデータから限られた知識を得る。
We developed UniChange to leverage various binary change detection (BCD) and semantic change (SCD) datasets。
- 参考スコア(独自算出の注目度): 17.98018484822312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Change detection (CD) is a fundamental task for monitoring and analyzing land cover dynamics. While recent high performance models and high quality datasets have significantly advanced the field, a critical limitation persists. Current models typically acquire limited knowledge from single-type annotated data and cannot concurrently leverage diverse binary change detection (BCD) and semantic change detection (SCD) datasets. This constraint leads to poor generalization and limited versatility. The recent advancements in Multimodal Large Language Models (MLLMs) introduce new possibilities for a unified CD framework. We leverage the language priors and unification capabilities of MLLMs to develop UniChange, the first MLLM-based unified change detection model. UniChange integrates generative language abilities with specialized CD functionalities. Our model successfully unifies both BCD and SCD tasks through the introduction of three special tokens: [T1], [T2], and [CHANGE]. Furthermore, UniChange utilizes text prompts to guide the identification of change categories, eliminating the reliance on predefined classification heads. This design allows UniChange to effectively acquire knowledge from multi-source datasets, even when their class definitions conflict. Experiments on four public benchmarks (WHU-CD, S2Looking, LEVIR-CD+, and SECOND) demonstrate SOTA performance, achieving IoU scores of 90.41, 53.04, 78.87, and 57.62, respectively, surpassing all previous methods. The code is available at https://github.com/Erxucomeon/UniChange.
- Abstract(参考訳): 変化検出(CD)は、土地被覆動態を監視し解析するための基本的な課題である。
最近の高性能モデルと高品質なデータセットはこの分野を著しく進歩させてきたが、限界は持続している。
現在のモデルでは、単一タイプの注釈付きデータから限られた知識を取得し、多様なバイナリ変更検出(BCD)と意味変化検出(SCD)データセットを同時に利用することはできない。
この制約は、一般化の貧弱さと多元性に繋がる。
MLLM(Multimodal Large Language Models)の最近の進歩は、統一CDフレームワークの新しい可能性をもたらす。
MLLMの言語事前と統一機能を活用して,最初のMLLMベースの統合変更検出モデルであるUniChangeを開発する。
UniChangeは、生成言語能力と特別なCD機能を統合する。
我々のモデルは, [T1], [T2], [CHANGE] という3つの特別なトークンを導入して, BCD と SCD のタスクを統一することに成功した。
さらに、UniChangeはテキストプロンプトを使用して変更カテゴリの識別をガイドし、事前に定義された分類ヘッドへの依存を排除している。
この設計により、UniChangeは、クラス定義が矛盾しても、マルチソースデータセットから知識を効果的に取得できる。
4つの公開ベンチマーク(WHU-CD、S2Looking、LEVIR-CD+、SECOND)の実験では、SOTAのパフォーマンスが実証され、IoUのスコアはそれぞれ90.41、53.04、78.87、57.62が達成された。
コードはhttps://github.com/Erxucomeon/UniChange.comで入手できる。
関連論文リスト
- The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - SChanger: Change Detection from a Semantic Change and Spatial Consistency Perspective [0.6749750044497732]
我々は,データ不足問題に対処するため,セマンティック・チェンジ・ネットワーク(SCN)と呼ばれる微調整戦略を開発した。
両画像間の変化位置は空間的に同一であり,空間的整合性(空間的整合性)の概念である。
これにより、マルチスケールな変更のモデリングが強化され、変更検出セマンティクスの基盤となる関係を捉えるのに役立ちます。
論文 参考訳(メタデータ) (2025-03-26T17:15:43Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - ChangeDiff: A Multi-Temporal Change Detection Data Generator with Flexible Text Prompts via Diffusion Model [21.50463332137926]
本稿では,セマンティックCD(SCD)タスクに着目し,マルチテンポラリSCDデータジェネレータであるChangeDiffを開発する。
ChangeDiffは2つのステップで変更データを生成する。まず、連続的なレイアウトを作成するためにテキストプロンプトとテキスト・ツー・イメージモデルを使用し、それからレイアウト・ツー・イメージを使用してレイアウトをイメージに変換する。
生成したデータは、時間的連続性、空間的多様性、および品質リアリズムの著しい進歩を示し、精度と伝達性で変化検出器を増強した。
論文 参考訳(メタデータ) (2024-12-20T03:58:28Z) - ViewDelta: Scaling Scene Change Detection through Text-Conditioning [0.0]
SCD(Scene Change Detection)の一般的なフレームワークを導入し、「関連性」と「疑問性」を区別する中核的な曖昧さに対処する。
テキスト条件付き変更検出フレームワークであるViewDeltaを提案し、関連する変更を定義するために自然言語プロンプトを使用する。
私たちのコードとデータセットはhttps://joshuakgao.io/viewdelta/.com/で公開されています。
論文 参考訳(メタデータ) (2024-12-10T15:51:17Z) - ChangeAnywhere: Sample Generation for Remote Sensing Change Detection via Semantic Latent Diffusion Model [4.677012401985776]
ChangeAnywhereはセマンティック潜伏拡散モデルと単一時間画像を用いた新しいCDサンプル生成手法である。
ChangeAnywhereは2つのCDサンプルをキャプチャする。つまり、変更は意味的に異なることを意味し、非変更は同じ意味的制約の下で合理的な変更を意味する。
ChangeAnywhere-100Kは、さまざまなディープラーニングベースのCDモデルのための2つのCDベンチマークデータセットにおいて、ゼロショットと少数ショットの両方のパフォーマンスを著しく改善した。
論文 参考訳(メタデータ) (2024-04-13T03:46:35Z) - A New Learning Paradigm for Foundation Model-based Remote Sensing Change
Detection [54.01158175996638]
変化検出(CD)は、土地被覆の動的過程を観察し解析するための重要な課題である。
本稿では,基盤モデルに基づくCD適応フレームワークであるBi-Temporal Adapter Network (BAN)を提案する。
論文 参考訳(メタデータ) (2023-12-02T15:57:17Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - Few-Shot Class-Incremental Learning by Sampling Multi-Phase Tasks [59.12108527904171]
モデルは新しいクラスを認識し、古いクラスに対する差別性を維持すべきである。
古いクラスを忘れずに新しいクラスを認識するタスクは、FSCIL ( few-shot class-incremental Learning) と呼ばれる。
我々は,LearnIng Multi-phase Incremental Tasks (LIMIT) によるメタラーニングに基づくFSCILの新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:46:41Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。