論文の概要: Diffusion-RSCC: Diffusion Probabilistic Model for Change Captioning in Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2405.12875v1
- Date: Tue, 21 May 2024 15:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 12:50:33.579471
- Title: Diffusion-RSCC: Diffusion Probabilistic Model for Change Captioning in Remote Sensing Images
- Title(参考訳): 拡散RSCC:リモートセンシング画像における変化キャプションのための拡散確率モデル
- Authors: Xiaofei Yu, Yitong Li, Jie Ma,
- Abstract要約: RSICCは、両時間的リモートセンシング画像ペア間の意味的変化を記述するために、人間のような言語を生成することを目的としている。
拡散モデルの顕著な生成力に着想を得て, RSICCの確率的拡散モデルを提案する。
学習過程において,マルコフ連鎖の下で実字幕分布から標準ガウス分布への分布を学習するために,クロスモーダル特徴を条件とした雑音予測器を構築する。
テスト段階では、よく訓練されたノイズ予測器が分布の平均値を推定し、段階的に変化キャプションを生成する。
- 参考スコア(独自算出の注目度): 14.236580915897585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing image change captioning (RSICC) aims at generating human-like language to describe the semantic changes between bi-temporal remote sensing image pairs. It provides valuable insights into environmental dynamics and land management. Unlike conventional change captioning task, RSICC involves not only retrieving relevant information across different modalities and generating fluent captions, but also mitigating the impact of pixel-level differences on terrain change localization. The pixel problem due to long time span decreases the accuracy of generated caption. Inspired by the remarkable generative power of diffusion model, we propose a probabilistic diffusion model for RSICC to solve the aforementioned problems. In training process, we construct a noise predictor conditioned on cross modal features to learn the distribution from the real caption distribution to the standard Gaussian distribution under the Markov chain. Meanwhile, a cross-mode fusion and a stacking self-attention module are designed for noise predictor in the reverse process. In testing phase, the well-trained noise predictor helps to estimate the mean value of the distribution and generate change captions step by step. Extensive experiments on the LEVIR-CC dataset demonstrate the effectiveness of our Diffusion-RSCC and its individual components. The quantitative results showcase superior performance over existing methods across both traditional and newly augmented metrics. The code and materials will be available online at https://github.com/Fay-Y/Diffusion-RSCC.
- Abstract(参考訳): リモートセンシング画像変換キャプション (RSICC) は、両時間的リモートセンシング画像ペア間の意味的変化を記述するために、人間のような言語を生成することを目的としている。
環境力学と土地管理に関する貴重な知見を提供する。
従来の変更キャプションタスクとは異なり、RSICCは、異なるモダリティをまたいだ関連情報を検索し、流動的なキャプションを生成するだけでなく、地形変化のローカライゼーションに対するピクセルレベルの差の影響を緩和する。
長時間スパンによる画素問題は、生成されたキャプションの精度を低下させる。
拡散モデルの顕著な生成力に着想を得て,この問題を解くための確率的拡散モデルを提案する。
学習過程において,マルコフ連鎖の下で実字幕分布から標準ガウス分布への分布を学習するために,クロスモーダル特徴を条件とした雑音予測器を構築する。
一方、逆処理におけるノイズ予測のために、クロスモード融合と積み重ねセルフアテンションモジュールが設計されている。
テスト段階では、よく訓練されたノイズ予測器が分布の平均値を推定し、段階的に変化キャプションを生成する。
LEVIR-CCデータセットに関する大規模な実験は、我々の拡散RSCCとその個々のコンポーネントの有効性を実証している。
測定結果は、従来のメトリクスと新しく拡張されたメトリクスの両方において、既存のメソッドよりも優れたパフォーマンスを示す。
コードと資料はhttps://github.com/Fay-Y/Diffusion-RSCC.comからオンラインで入手できる。
関連論文リスト
- Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission [24.372996233209854]
DiffJSCCは条件拡散復調法により高現実性画像を生成する新しいフレームワークである。
768x512ピクセルのコダック画像を3072のシンボルで再現できる。
論文 参考訳(メタデータ) (2024-04-27T00:12:13Z) - Generalized Consistency Trajectory Models for Image Manipulation [59.576781858809355]
拡散モデル(DM)は、画像編集や復元などの応用と同様に、無条件生成において優れている。
本研究の目的は、一般化されたCTM(GCTM)を提案することによって、整合性軌道モデル(CTM)の完全なポテンシャルを解放することである。
本稿では,GCTMの設計空間について論じ,画像から画像への変換,復元,編集など,様々な画像操作タスクにおいて有効性を示す。
論文 参考訳(メタデータ) (2024-03-19T07:24:54Z) - Adaptive Semantic-Enhanced Denoising Diffusion Probabilistic Model for Remote Sensing Image Super-Resolution [7.252121550658619]
Denoising Diffusion Probabilistic Model (DDPM) は画像再構成において有望な性能を示した。
DDPMが生成する高周波の詳細は、モデルが長距離の意味的文脈を見落としているため、HR画像との不一致に悩まされることが多い。
DDPMの詳細な保存能力を高めるために,適応的意味強化DDPM(ASDDPM)を提案する。
論文 参考訳(メタデータ) (2024-03-17T04:08:58Z) - Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - Affine-Transformation-Invariant Image Classification by Differentiable
Arithmetic Distribution Module [8.125023712173686]
畳み込みニューラルネットワーク(CNN)は画像分類において有望な結果を得た。
CNNは回転、翻訳、フリップ、シャッフルなどのアフィン変換に弱い。
本研究では,分散学習手法を取り入れた,より堅牢な代替手法を提案する。
論文 参考訳(メタデータ) (2023-09-01T22:31:32Z) - Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation [11.80682025950519]
本研究では,拡散(機械学習)特性の拡散(物理学)について検討する。
拡散現象の方向を制御するために,循環一流拡散法(COW)を提案する。
本手法は,タスクニーズを理解するための新しい視点を提供し,より広い範囲のカスタマイズシナリオに適用可能である。
論文 参考訳(メタデータ) (2023-06-14T05:25:06Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。
VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。
本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文 参考訳(メタデータ) (2022-10-21T09:35:47Z) - f-DM: A Multi-stage Diffusion Model via Progressive Signal
Transformation [56.04628143914542]
拡散モデル(DM)は、最近、様々な領域で生成モデリングを行うためのSoTAツールとして登場した。
本稿では、プログレッシブ信号変換が可能なDMの一般化されたファミリであるf-DMを提案する。
我々は、ダウンサンプリング、ぼやけ、学習された変換を含む様々な機能を持つ画像生成タスクにf-DMを適用した。
論文 参考訳(メタデータ) (2022-10-10T18:49:25Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。