論文の概要: CRS-Diff: Controllable Remote Sensing Image Generation with Diffusion Model
- arxiv url: http://arxiv.org/abs/2403.11614v4
- Date: Sun, 1 Sep 2024 06:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 19:02:17.410765
- Title: CRS-Diff: Controllable Remote Sensing Image Generation with Diffusion Model
- Title(参考訳): CRS-Diff:拡散モデルによる制御可能なリモートセンシング画像生成
- Authors: Datao Tang, Xiangyong Cao, Xingsong Hou, Zhongyuan Jiang, Junmin Liu, Deyu Meng,
- Abstract要約: CRS-Diffは、RS画像生成に特化した新しいRS生成フレームワークである。
我々の知る限り、CRS-Diffは、最初の多重条件制御可能なRS生成モデルである。
私たちのCRS-Diffは、下流タスクのための高品質なトレーニングデータを生成するデータエンジンとして機能します。
- 参考スコア(独自算出の注目度): 42.92146478120197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of generative models has revolutionized the field of remote sensing (RS) image generation. Despite generating high-quality images, existing methods are limited in relying mainly on text control conditions, and thus do not always generate images accurately and stably. In this paper, we propose CRS-Diff, a new RS generative framework specifically tailored for RS image generation, leveraging the inherent advantages of diffusion models while integrating more advanced control mechanisms. Specifically, CRS-Diff can simultaneously support text-condition, metadata-condition, and image-condition control inputs, thus enabling more precise control to refine the generation process. To effectively integrate multiple condition control information, we introduce a new conditional control mechanism to achieve multi-scale feature fusion, thus enhancing the guiding effect of control conditions. To our knowledge, CRS-Diff is the first multiple-condition controllable RS generative model. Experimental results in single-condition and multiple-condition cases have demonstrated the superior ability of our CRS-Diff to generate RS images both quantitatively and qualitatively compared with previous methods. Additionally, our CRS-Diff can serve as a data engine that generates high-quality training data for downstream tasks, e.g., road extraction. The code is available at https://github.com/Sonettoo/CRS-Diff.
- Abstract(参考訳): 生成モデルの出現は、リモートセンシング(RS)画像生成の分野に革命をもたらした。
高品質な画像を生成するにもかかわらず、既存の手法は主にテキスト制御条件に依存しているため、常に正確かつ安定に画像を生成するとは限らない。
本稿では,RS画像生成に適した新しいRS生成フレームワークであるCRS-Diffを提案する。
具体的には、CRS-Diffはテキスト条件、メタデータ条件、画像条件制御入力を同時にサポートし、より正確な制御により生成プロセスを洗練できる。
複数条件制御情報を効果的に統合するために,複数機能融合を実現するための新しい条件制御機構を導入し,制御条件の誘導効果を高める。
我々の知る限り、CRS-Diffは、最初の多重条件制御可能なRS生成モデルである。
CRS-Diffは, 従来法と比較して, 定量的かつ定性的にRS画像を生成する能力に優れていた。
さらに、当社のCRS-Diffは、下流タスク、例えば道路抽出のための高品質なトレーニングデータを生成するデータエンジンとして機能する。
コードはhttps://github.com/Sonettoo/CRS-Diffで公開されている。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation [69.43106794519193]
本稿では,複数のベース条件からイメージ・ツー・イメージ生成の共通知識を学習するために,ベース制御ネットを訓練するCtrLoRAフレームワークを提案する。
学習可能なパラメータをControlNetと比較して90%削減し,モデルの重み付けとデプロイのしきい値を大幅に下げる。
論文 参考訳(メタデータ) (2024-10-12T07:04:32Z) - ControlAR: Controllable Image Generation with Autoregressive Models [40.74890550081335]
自動回帰画像生成モデルに空間制御を統合するための効率的なフレームワークであるControlARを導入する。
ControlARは条件付き復号法を利用して、制御と画像トークンの融合によって条件付けられた次の画像トークンを生成する。
その結果,コントロールARは従来の制御可能な拡散モデルを上回ることが示唆された。
論文 参考訳(メタデータ) (2024-10-03T17:28:07Z) - SelfDRSC++: Self-Supervised Learning for Dual Reversed Rolling Shutter Correction [72.05587640928879]
二重反転RS歪み補正(SelfDRSC++)のための自己教師付き学習フレームワークを提案する。
双方向相関マッチングブロックを組み込んだ軽量DRSCネットワークを導入し,光学流の結合最適化とRS特性の補正を行う。
DRSCネットワークを効果的に訓練するために、入力と再構成された二重逆RS画像間のサイクル整合性を保証する自己教師付き学習戦略を提案する。
論文 参考訳(メタデータ) (2024-08-21T08:17:22Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - SCEdit: Efficient and Controllable Image Diffusion Generation via Skip
Connection Editing [18.508719350413802]
SCEdit と呼ばれる,Skip Connection を統合し編集する効率的な生成チューニングフレームワークを提案する。
SCEditはトレーニングパラメータ、メモリ使用量、計算コストを大幅に削減する。
テキスト・ツー・イメージ生成と制御可能な画像合成タスクの実験は、効率と性能の観点から、本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-12-18T17:54:14Z) - Intriguing Property and Counterfactual Explanation of GAN for Remote Sensing Image Generation [25.96740500337747]
GAN(Generative Adversarial Network)は、自然画像の分野で顕著な進歩を遂げている。
GANモデルは、自然な画像生成よりも、RS画像生成のためのトレーニングデータのサイズに敏感である。
本稿では,一様正則化(UR)とエントロピー正則化(ER)という2つの革新的な調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-09T13:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。