Fugu-MT 論文翻訳(概要): CRS-Diff: Controllable Remote Sensing Image Generation with Diffusion Model

論文の概要: CRS-Diff: Controllable Remote Sensing Image Generation with Diffusion Model

arxiv url: http://arxiv.org/abs/2403.11614v4
Date: Sun, 1 Sep 2024 06:32:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-04 19:02:17.410765
Title: CRS-Diff: Controllable Remote Sensing Image Generation with Diffusion Model
Title（参考訳）: CRS-Diff:拡散モデルによる制御可能なリモートセンシング画像生成
Authors: Datao Tang, Xiangyong Cao, Xingsong Hou, Zhongyuan Jiang, Junmin Liu, Deyu Meng,
Abstract要約: CRS-Diffは、RS画像生成に特化した新しいRS生成フレームワークである。我々の知る限り、CRS-Diffは、最初の多重条件制御可能なRS生成モデルである。私たちのCRS-Diffは、下流タスクのための高品質なトレーニングデータを生成するデータエンジンとして機能します。
参考スコア（独自算出の注目度）: 42.92146478120197
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of generative models has revolutionized the field of remote sensing (RS) image generation. Despite generating high-quality images, existing methods are limited in relying mainly on text control conditions, and thus do not always generate images accurately and stably. In this paper, we propose CRS-Diff, a new RS generative framework specifically tailored for RS image generation, leveraging the inherent advantages of diffusion models while integrating more advanced control mechanisms. Specifically, CRS-Diff can simultaneously support text-condition, metadata-condition, and image-condition control inputs, thus enabling more precise control to refine the generation process. To effectively integrate multiple condition control information, we introduce a new conditional control mechanism to achieve multi-scale feature fusion, thus enhancing the guiding effect of control conditions. To our knowledge, CRS-Diff is the first multiple-condition controllable RS generative model. Experimental results in single-condition and multiple-condition cases have demonstrated the superior ability of our CRS-Diff to generate RS images both quantitatively and qualitatively compared with previous methods. Additionally, our CRS-Diff can serve as a data engine that generates high-quality training data for downstream tasks, e.g., road extraction. The code is available at https://github.com/Sonettoo/CRS-Diff.
Abstract（参考訳）: 生成モデルの出現は、リモートセンシング(RS)画像生成の分野に革命をもたらした。高品質な画像を生成するにもかかわらず、既存の手法は主にテキスト制御条件に依存しているため、常に正確かつ安定に画像を生成するとは限らない。本稿では,RS画像生成に適した新しいRS生成フレームワークであるCRS-Diffを提案する。具体的には、CRS-Diffはテキスト条件、メタデータ条件、画像条件制御入力を同時にサポートし、より正確な制御により生成プロセスを洗練できる。複数条件制御情報を効果的に統合するために,複数機能融合を実現するための新しい条件制御機構を導入し,制御条件の誘導効果を高める。我々の知る限り、CRS-Diffは、最初の多重条件制御可能なRS生成モデルである。 CRS-Diffは, 従来法と比較して, 定量的かつ定性的にRS画像を生成する能力に優れていた。さらに、当社のCRS-Diffは、下流タスク、例えば道路抽出のための高品質なトレーニングデータを生成するデータエンジンとして機能する。コードはhttps://github.com/Sonettoo/CRS-Diffで公開されている。

関連論文リスト

SCALAR: Scale-wise Controllable Visual Autoregressive Learning [15.775596699630633]
視覚自己回帰(VAR)に基づく制御可能な生成法であるSCALARを提案する。予め訓練された画像エンコーダを用いて意味制御信号の符号化を抽出し,VARバックボーンの対応する層に注入する。 SCALAR上に構築したSCALAR-Uniは,複数の制御モダリティを共有潜在空間に整合させる統合拡張であり,単一のモデルで柔軟なマルチ条件ガイダンスをサポートする。
論文参考訳（メタデータ） (2025-07-26T13:23:08Z)
Enhancing Remote Sensing Vision-Language Models Through MLLM and LLM-Based High-Quality Image-Text Dataset Generation [21.62138893025555]
重要な課題は、高品質で大規模な画像テキストペアリングトレーニングデータの不足にある。 RS画像の高品質なテキストキャプションを生成するために,MpGIという2段階の手法を提案する。識別モデルであるCLIPと、画像からテキストへの生成モデルであるCoCaという2つのVLFMをデータセットを用いて微調整した。
論文参考訳（メタデータ） (2025-07-22T15:54:53Z)
DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-04T11:54:57Z)
OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。 OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文参考訳（メタデータ） (2024-11-22T17:55:15Z)
ControlSR: Taming Diffusion Models for Consistent Real-World Image Super Resolution [68.72454974431749]
我々は、一貫した実世界の画像超解像(Real-ISR)に対して拡散モデルをテーム化する新しい方法であるControlSRを提案する。提案モデルでは,複数のテストセット上で複数の測定値にまたがる性能が向上し,既存の手法よりもLR画像でより一貫したSR結果が得られる。
論文参考訳（メタデータ） (2024-10-18T08:35:57Z)
A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文参考訳（メタデータ） (2024-10-15T09:41:43Z)
CtrLoRA: An Extensible and Efficient Framework for Controllable Image Generation [69.43106794519193]
本稿では,複数のベース条件からイメージ・ツー・イメージ生成の共通知識を学習するために,ベース制御ネットを訓練するCtrLoRAフレームワークを提案する。学習可能なパラメータをControlNetと比較して90%削減し,モデルの重み付けとデプロイのしきい値を大幅に下げる。
論文参考訳（メタデータ） (2024-10-12T07:04:32Z)
ControlAR: Controllable Image Generation with Autoregressive Models [40.74890550081335]
自動回帰画像生成モデルに空間制御を統合するための効率的なフレームワークであるControlARを導入する。 ControlARは条件付き復号法を利用して、制御と画像トークンの融合によって条件付けられた次の画像トークンを生成する。その結果,コントロールARは従来の制御可能な拡散モデルを上回ることが示唆された。
論文参考訳（メタデータ） (2024-10-03T17:28:07Z)
SelfDRSC++: Self-Supervised Learning for Dual Reversed Rolling Shutter Correction [72.05587640928879]
二重反転RS歪み補正(SelfDRSC++)のための自己教師付き学習フレームワークを提案する。双方向相関マッチングブロックを組み込んだ軽量DRSCネットワークを導入し,光学流の結合最適化とRS特性の補正を行う。 DRSCネットワークを効果的に訓練するために、入力と再構成された二重逆RS画像間のサイクル整合性を保証する自己教師付き学習戦略を提案する。
論文参考訳（メタデータ） (2024-08-21T08:17:22Z)
ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文参考訳（メタデータ） (2024-06-14T06:35:33Z)
Intriguing Property and Counterfactual Explanation of GAN for Remote Sensing Image Generation [25.96740500337747]
GAN(Generative Adversarial Network)は、自然画像の分野で顕著な進歩を遂げている。 GANモデルは、自然な画像生成よりも、RS画像生成のためのトレーニングデータのサイズに敏感である。本稿では,一様正則化(UR)とエントロピー正則化(ER)という2つの革新的な調整手法を提案する。
論文参考訳（メタデータ） (2023-03-09T13:22:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。