論文の概要: Changen2: Multi-Temporal Remote Sensing Generative Change Foundation Model
- arxiv url: http://arxiv.org/abs/2406.17998v1
- Date: Wed, 26 Jun 2024 01:03:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 14:57:54.676193
- Title: Changen2: Multi-Temporal Remote Sensing Generative Change Foundation Model
- Title(参考訳): Changen2: マルチテンポラルリモートセンシングジェネレーティブチェンジファウンデーションモデル
- Authors: Zhuo Zheng, Stefano Ermon, Dongjun Kim, Liangpei Zhang, Yanfei Zhong,
- Abstract要約: 安価で自動的な生成モデルに基づく変更データ生成器を提案する。
Changen2は、自己監督を通じて大規模にトレーニング可能な、生成的な変更基盤モデルである。
得られたモデルには、固有のゼロショット変化検出機能と優れた転送性がある。
- 参考スコア(独自算出の注目度): 62.337749660637755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our understanding of the temporal dynamics of the Earth's surface has been advanced by deep vision models, which often require lots of labeled multi-temporal images for training. However, collecting, preprocessing, and annotating multi-temporal remote sensing images at scale is non-trivial since it is expensive and knowledge-intensive. In this paper, we present change data generators based on generative models, which are cheap and automatic, alleviating these data problems. Our main idea is to simulate a stochastic change process over time. We describe the stochastic change process as a probabilistic graphical model (GPCM), which factorizes the complex simulation problem into two more tractable sub-problems, i.e., change event simulation and semantic change synthesis. To solve these two problems, we present Changen2, a GPCM with a resolution-scalable diffusion transformer which can generate time series of images and their semantic and change labels from labeled or unlabeled single-temporal images. Changen2 is a generative change foundation model that can be trained at scale via self-supervision, and can produce change supervisory signals from unlabeled single-temporal images. Unlike existing foundation models, Changen2 synthesizes change data to train task-specific foundation models for change detection. The resulting model possesses inherent zero-shot change detection capabilities and excellent transferability. Experiments suggest Changen2 has superior spatiotemporal scalability, e.g., Changen2 model trained on 256$^2$ pixel single-temporal images can yield time series of any length and resolutions of 1,024$^2$ pixels. Changen2 pre-trained models exhibit superior zero-shot performance (narrowing the performance gap to 3% on LEVIR-CD and approximately 10% on both S2Looking and SECOND, compared to fully supervised counterparts) and transferability across multiple types of change tasks.
- Abstract(参考訳): 地球表面の時間的ダイナミクスに対する我々の理解は、深部視覚モデルによって進歩しており、訓練には多くのラベル付きマルチテンポラル画像を必要とすることが多い。
しかし、高価で知識集約的なため、大規模なマルチ時間リモートセンシング画像の収集、前処理、注釈付けは簡単ではない。
本稿では、これらのデータ問題を緩和し、安価で自動的な生成モデルに基づくデータ生成装置を提案する。
私たちの一番のアイデアは、時間とともに確率的な変化プロセスをシミュレートすることです。
本稿では,確率的変化過程を確率的グラフィカルモデル (GPCM) として記述し,複雑なシミュレーション問題をよりトラクタブルな2つのサブプロブレム,すなわちイベントシミュレーションと意味的変化合成に分解する。
この2つの問題を解決するために,ラベル付きあるいはラベルなしの単一時間画像から時系列画像とその意味と変化ラベルを生成することができる分解能スカラー拡散変換器を備えたGPCMであるChangen2を提案する。
Changen2は、自己スーパービジョンを通じて大規模にトレーニングできる生成的変更基盤モデルであり、ラベルのない単一時間画像から変更監視信号を生成することができる。
既存のファンデーションモデルとは異なり、Changen2は変更データを合成して、変更検出のためのタスク固有のファンデーションモデルをトレーニングする。
得られたモデルには、固有のゼロショット変化検出機能と優れた転送性がある。
実験によると、Changen2は時空間スケーラビリティに優れており、256$^2$ピクセルで訓練されたChangen2モデルは、任意の長さと解像度の時系列を1,024$^2$ピクセルで生成できる。
事前訓練されたChangen2モデルは、優れたゼロショット性能(LEVIR-CDで3%、S2LookingとSECONDで約10%)と、複数のタイプの変更タスク間での転送性を示す。
関連論文リスト
- Invariant Shape Representation Learning For Image Classification [41.610264291150706]
本稿では,不変形状表現学習(ISRL)を初めて開発した新しいフレームワークを提案する。
我々のモデルISRLは、変形可能な変換によってパラメータ化される潜在形状空間における不変特徴を共同でキャプチャするように設計されている。
異なる環境にターゲット変数に関して不変な機能を埋め込むことで、我々のモデルは一貫してより正確な予測を提供する。
論文 参考訳(メタデータ) (2024-11-19T03:39:43Z) - Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - Integrated Dynamic Phenological Feature for Remote Sensing Image Land Cover Change Detection [5.109855690325439]
本稿では,表現学的特徴をリモートセンシング画像CDフレームワークに統合するInPheaモデルを提案する。
4つの制約モジュールと多段階のコントラスト学習アプローチを備えた制約器を用いて,表現学的特徴の理解を支援する。
HRSCD、SECD、PSCD-Wuhanデータセットの実験は、InPheaが他のモデルより優れていることを示している。
論文 参考訳(メタデータ) (2024-08-08T01:07:28Z) - Counterfactual Image Editing [54.21104691749547]
対物画像編集は、生成AIにおいて重要なタスクであり、ある機能が異なる場合、画像がどのように見えるかを尋ねる。
本稿では,形式言語を用いた対物画像編集タスクを形式化し,潜在生成因子と画像の因果関係をモデル化する。
ニューラル因果モデルを利用して、対物画像を生成する効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-07T20:55:39Z) - Scalable Multi-Temporal Remote Sensing Change Data Generation via
Simulating Stochastic Change Process [21.622442722863028]
生成モデルを用いたスケーラブルなマルチ時間リモートセンシングデータ生成手法を提案する。
私たちの一番のアイデアは、時間とともに変化するプロセスをシミュレートすることです。
これら2つの問題を解決するため、GANベースのGPCMである変更生成器(Changen)を提案し、制御可能なオブジェクト変更データ生成を可能にする。
論文 参考訳(メタデータ) (2023-09-29T07:37:26Z) - Self-Pair: Synthesizing Changes from Single Source for Object Change
Detection in Remote Sensing Imagery [6.586756080460231]
本研究では,2つの空間的無関係な画像を用いて変化検出器をトレーニングする。
本稿では,画像の残像としての操作が,変化検出の性能に不可欠であることを示す。
本手法は, 単一時間監視に基づく既存手法よりも優れる。
論文 参考訳(メタデータ) (2022-12-20T13:26:42Z) - TimesNet: Temporal 2D-Variation Modeling for General Time Series
Analysis [80.56913334060404]
時系列解析は、天気予報、異常検出、行動認識などの応用において非常に重要である。
従来の手法では、1D時系列から直接これを達成しようと試みていた。
複雑な経時的変化を、複数の経時的変化と経時的変化に明らかにする。
論文 参考訳(メタデータ) (2022-10-05T12:19:51Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。