論文の概要: CRS-Diff: Controllable Generative Remote Sensing Foundation Model
- arxiv url: http://arxiv.org/abs/2403.11614v3
- Date: Tue, 11 Jun 2024 06:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 22:13:02.375493
- Title: CRS-Diff: Controllable Generative Remote Sensing Foundation Model
- Title(参考訳): CRS-Diff:制御可能な生成型リモートセンシング基礎モデル
- Authors: Datao Tang, Xiangyong Cao, Xingsong Hou, Zhongyuan Jiang, Deyu Meng,
- Abstract要約: CRS-Diffは、RS画像生成に特化した新しいRS生成基盤フレームワークである。
我々の知る限り、CRS-Diffは、最初の多重条件制御可能な生成RS基盤モデルである。
私たちのCRS-Diffは、下流タスクのための高品質なトレーニングデータを生成するデータエンジンとして機能します。
- 参考スコア(独自算出の注目度): 41.68209522249035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of generative models has revolutionized the field of remote sensing (RS) image generation. Despite generating high-quality images, existing methods are limited in relying mainly on text control conditions and thus don't always generate images accurately and stablely. In this paper, we propose CRS-Diff, a new RS generative foundation framework specifically tailored for RS image generation, leveraging the inherent advantages of diffusion models while integrating more advanced control mechanisms. Specifically, CRS-Diff can simultaneously support text-condition, metadata-condition, and image-condition control inputs, thus enabling more precise control to refine the generation process. To effectively integrate multiple condition control information, we introduce a new conditional control mechanism to achieve multi-scale feature fusion, thus enhancing the guiding effect of control conditions. To our knowledge, CRS-Diff is the first multiple-condition controllable generative RS foundation model. Experimental results in single-condition and multiple-condition cases have demonstrated the superior ability of our CRS-Diff to generate RS images both quantitatively and qualitatively compared with previous methods. Additionally, our CRS-Diff can serve as a data engine that generates high-quality training data for downstream tasks, e.g., road extraction. The code is available at https://github.com/Sonettoo/CRS-Diff.
- Abstract(参考訳): 生成モデルの出現は、リモートセンシング(RS)画像生成の分野に革命をもたらした。
高品質な画像を生成するにもかかわらず、既存の手法は主にテキスト制御条件に依存しているため、常に正確かつ安定した画像を生成するとは限らない。
本稿では,RS画像生成に適した新しいRS生成基盤フレームワークであるCRS-Diffを提案する。
具体的には、CRS-Diffはテキスト条件、メタデータ条件、画像条件制御入力を同時にサポートし、より正確な制御により生成プロセスを洗練できる。
複数条件制御情報を効果的に統合するために,複数機能融合を実現するための新しい条件制御機構を導入し,制御条件の誘導効果を高める。
我々の知る限り、CRS-Diffは、最初の多重条件制御可能な生成RS基盤モデルである。
CRS-Diffは, 従来法と比較して, 定量的かつ定性的にRS画像を生成する能力に優れていた。
さらに、当社のCRS-Diffは、下流タスク、例えば道路抽出のための高品質なトレーニングデータを生成するデータエンジンとして機能する。
コードはhttps://github.com/Sonettoo/CRS-Diffで公開されている。
関連論文リスト
- Coarse-Fine Spectral-Aware Deformable Convolution For Hyperspectral Image Reconstruction [15.537910100051866]
Coded Aperture Snapshot Spectral Imaging (CASSI) の逆問題について検討する。
粗面スペクトル対応変形性畳み込みネットワーク(CFSDCN)を提案する。
我々のCFSDCNは、シミュレーションされたHSIデータセットと実際のHSIデータセットの両方において、従来の最先端(SOTA)メソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-06-18T15:15:12Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient
Approach [63.98380888730723]
本稿では, Convolutional Transformer Layer (ConvFormer) と ConvFormer-based Super-Resolution Network (CFSR) を紹介する。
CFSRは、計算コストの少ない長距離依存と広範囲の受容場を効率的にモデル化する。
これは、x2 SRタスクのUrban100データセットで0.39dB、パラメータが26%、FLOPが31%減少している。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - SCEdit: Efficient and Controllable Image Diffusion Generation via Skip
Connection Editing [18.508719350413802]
SCEdit と呼ばれる,Skip Connection を統合し編集する効率的な生成チューニングフレームワークを提案する。
SCEditはトレーニングパラメータ、メモリ使用量、計算コストを大幅に削減する。
テキスト・ツー・イメージ生成と制御可能な画像合成タスクの実験は、効率と性能の観点から、本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-12-18T17:54:14Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Intriguing Property and Counterfactual Explanation of GAN for Remote Sensing Image Generation [25.96740500337747]
GAN(Generative Adversarial Network)は、自然画像の分野で顕著な進歩を遂げている。
GANモデルは、自然な画像生成よりも、RS画像生成のためのトレーニングデータのサイズに敏感である。
本稿では,一様正則化(UR)とエントロピー正則化(ER)という2つの革新的な調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-09T13:22:50Z) - Few-Shot Diffusion Models [15.828257653106537]
条件付きDDPMを利用した数ショット生成のためのフレームワークであるFew-Shot Diffusion Models (FSDM)を提案する。
FSDMは、画像パッチ情報を集約することにより、所定のクラスからの小さな画像集合に条件付けされた生成プロセスに適応するように訓練される。
FSDMが数ショット生成を行い、新しいデータセットに転送できることを実証的に示す。
論文 参考訳(メタデータ) (2022-05-30T23:20:33Z) - A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。
DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。
本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文 参考訳(メタデータ) (2022-03-21T14:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。