論文の概要: CC-Diff: Enhancing Contextual Coherence in Remote Sensing Image Synthesis
- arxiv url: http://arxiv.org/abs/2412.08464v1
- Date: Wed, 11 Dec 2024 15:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 23:20:26.720366
- Title: CC-Diff: Enhancing Contextual Coherence in Remote Sensing Image Synthesis
- Title(参考訳): CC-Diff:リモートセンシング画像合成におけるコンテキストコヒーレンス向上
- Authors: Mu Zhang, Yunfan Liu, Yue Liu, Hongtian Yu, Qixiang Ye,
- Abstract要約: 本稿では,拡張コンテキストコヒーレンスを用いた拡散モデルに基づくRS画像生成手法であるCC-Diffを紹介する。
空間的相互依存を捉えるために,合成した前景のインスタンスに背景生成を条件付けるシーケンシャルパイプラインを提案する。
実験により、CC-Diffは視覚的忠実度、意味的精度、位置精度において最先端の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 42.09199178897688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately depicting real-world landscapes in remote sensing (RS) images requires precise alignment between objects and their environment. However, most existing synthesis methods for natural images prioritize foreground control, often reducing the background to plain textures. This neglects the interaction between foreground and background, which can lead to incoherence in RS scenarios. In this paper, we introduce CC-Diff, a Diffusion Model-based approach for RS image generation with enhanced Context Coherence. To capture spatial interdependence, we propose a sequential pipeline where background generation is conditioned on synthesized foreground instances. Distinct learnable queries are also employed to model both the complex background texture and its semantic relation to the foreground. Extensive experiments demonstrate that CC-Diff outperforms state-of-the-art methods in visual fidelity, semantic accuracy, and positional precision, excelling in both RS and natural image domains. CC-Diff also shows strong trainability, improving detection accuracy by 2.04 mAP on DOTA and 2.25 mAP on the COCO benchmark.
- Abstract(参考訳): リモートセンシング(RS)画像における現実世界の風景の正確な描写には、オブジェクトとその環境の正確なアライメントが必要である。
しかし、既存の自然画像合成手法のほとんどは前景制御を優先し、背景を平らなテクスチャに還元する。
これはフォアグラウンドとバックグラウンドの相互作用を無視し、RSシナリオにおける一貫性を損なう可能性がある。
本稿では,拡張コンテキストコヒーレンスを用いた拡散モデルに基づくRS画像生成手法であるCC-Diffを紹介する。
空間的相互依存を捉えるために,合成した前景のインスタンスに背景生成を条件付けるシーケンシャルパイプラインを提案する。
特定の学習可能なクエリも、複雑な背景テクスチャと、前景とのセマンティックな関係の両方をモデル化するために使用される。
CC-Diffは視覚的忠実度、意味的精度、位置精度において最先端の手法より優れており、RS領域と自然画像領域の両方で優れていた。
CC-Diffは訓練性も強く、DOTAでは2.04 mAP、COCOベンチマークでは2.25 mAPの検出精度が向上した。
関連論文リスト
- FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Test-time adaptation for image compression with distribution regularization [43.490138269939344]
簡単なベイズ近似によるテキスト分布正規化を導入し、プラグアンドプレイ方式でより優れた関節確率近似を学習する。
提案手法は, 既存のTTA-IC法に柔軟に統合し, 漸進的な利点を生かしてR-D性能を向上する。
論文 参考訳(メタデータ) (2024-10-16T03:25:16Z) - One-step Generative Diffusion for Realistic Extreme Image Rescaling [47.89362819768323]
極端画像再スケーリングのためのワンステップイメージ再スケーリング拡散(OSIRDiff)と呼ばれる新しいフレームワークを提案する。
OSIRDiffは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を実行する。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission [24.372996233209854]
DiffJSCCは条件拡散復調法により高現実性画像を生成する新しいフレームワークである。
768x512ピクセルのコダック画像を3072のシンボルで再現できる。
論文 参考訳(メタデータ) (2024-04-27T00:12:13Z) - Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Hierarchical Similarity Learning for Aliasing Suppression Image
Super-Resolution [64.15915577164894]
エイリアスの影響を抑制するために階層画像超解像ネットワーク(HSRNet)を提案する。
HSRNetは、他の作品よりも定量的かつ視覚的なパフォーマンスを向上し、エイリアスをより効果的に再送信する。
論文 参考訳(メタデータ) (2022-06-07T14:55:32Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。