論文の概要: CC-Diff: Enhancing Contextual Coherence in Remote Sensing Image Synthesis
- arxiv url: http://arxiv.org/abs/2412.08464v3
- Date: Mon, 10 Mar 2025 12:47:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:40:47.256379
- Title: CC-Diff: Enhancing Contextual Coherence in Remote Sensing Image Synthesis
- Title(参考訳): CC-Diff:リモートセンシング画像合成におけるコンテキストコヒーレンス向上
- Authors: Mu Zhang, Yunfan Liu, Yue Liu, Yuzhong Zhao, Qixiang Ye,
- Abstract要約: 我々は、RS画像生成のための$underlinetextbfDiff$usion ModelベースのアプローチであるCC-Diffを紹介する。
具体的には, コンテキストブリッジを内蔵した特徴抽出用デュアルリサンプラーを提案する。
実験の結果、CC-Diffは重要な品質指標で最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 45.04353333270952
- License:
- Abstract: Existing image synthesis methods for natural scenes focus primarily on foreground control, often reducing the background to simplistic textures. Consequently, these approaches tend to overlook the intrinsic correlation between foreground and background, which may lead to incoherent and unrealistic synthesis results in remote sensing (RS) scenarios. In this paper, we introduce CC-Diff, a $\underline{\textbf{Diff}}$usion Model-based approach for RS image generation with enhanced $\underline{\textbf{C}}$ontext $\underline{\textbf{C}}$oherence. Specifically, we propose a novel Dual Re-sampler for feature extraction, with a built-in `Context Bridge' to explicitly capture the intricate interdependency between foreground and background. Moreover, we reinforce their connection by employing a foreground-aware attention mechanism during the generation of background features, thereby enhancing the plausibility of the synthesized context. Extensive experiments show that CC-Diff outperforms state-of-the-art methods across critical quality metrics, excelling in the RS domain and effectively generalizing to natural images. Remarkably, CC-Diff also shows high trainability, boosting detection accuracy by 1.83 mAP on DOTA and 2.25 mAP on the COCO benchmark.
- Abstract(参考訳): 既存の自然シーンの画像合成法は主に前景制御に重点を置いており、背景を単純なテクスチャに還元することが多い。
その結果、これらのアプローチは前景と背景の内在的相関を見落とし、リモートセンシング(RS)のシナリオにおいて、一貫性のない非現実的な合成結果をもたらす可能性がある。
本稿では,拡張された$\underline{\textbf{C}}$ontext $\underline{\textbf{C}}$oherenceを用いて,RS画像生成のためのモデルベースアプローチであるCC-Diffを紹介する。
具体的には,前景と背景の複雑な相互依存性を明示的に捉えるために,「コンテキストブリッジ」を内蔵した特徴抽出用デュアルリサンプラーを提案する。
さらに,背景特徴の生成に前景認識型アテンション機構を用いることで,その関連性を強化し,合成コンテキストの妥当性を高める。
大規模な実験により、CC-Diffは、重要な品質指標をまたいで最先端の手法を上回り、RS領域に優れ、自然画像に効果的に一般化することを示した。
注目すべきことに、CC-Diffは高い訓練性を示し、DOTAでは1.83mAP、COCOベンチマークでは2.25mAPの精度が向上した。
関連論文リスト
- Robust Scene Change Detection Using Visual Foundation Models and Cross-Attention Mechanisms [27.882122236282054]
本稿では,視覚基礎モデルDINOv2の頑健な特徴抽出機能を活用したシーン変化検出手法を提案する。
我々は,VL-CMU-CDとPSCDの2つのベンチマークデータセットに対するアプローチと,その視点評価バージョンについて検討した。
実験では,F1スコアにおいて,特に画像ペア間の幾何学的変化を伴うシナリオにおいて,顕著な改善が示された。
論文 参考訳(メタデータ) (2024-09-25T11:55:27Z) - Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - ResiDualGAN: Resize-Residual DualGAN for Cross-Domain Remote Sensing
Images Semantic Segmentation [15.177834801688979]
アノテーション付きデータセットで事前訓練されたリモートセンシング(RS)画像のセマンティックセグメンテーションモデルの性能は、ドメインギャップのため、他のアノテーションなしデータセットでテストすると大幅に低下する。
画素レベルのドメインギャップを最小限に抑えるために、DualGANなどの逆生成法が未ペア画像から画像への変換に利用される。
本稿では,RS画像の変換においてResiDualGANを提案する。
論文 参考訳(メタデータ) (2022-01-27T13:56:54Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。