論文の概要: Remote Diffusion
- arxiv url: http://arxiv.org/abs/2405.04717v1
- Date: Tue, 7 May 2024 23:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 15:45:06.938872
- Title: Remote Diffusion
- Title(参考訳): 遠隔拡散
- Authors: Kunal Sunil Kasodekar,
- Abstract要約: 遠隔センシングにおける領域固有の衛星・空中画像生成のための安定拡散v1.5の適用について検討した。
RSICDデータセットを使用して、0.2の損失で安定拡散モデルをトレーニングしました。
土地利用土地分類(LULC)タスクのための合成データセットを作成し、RAGとChatGPTによるプロンプト技術を採用した。
大規模な微調整とデータセットの反復にもかかわらず、結果は、高いFIDスコアとドメインエキスパート評価によって示されるように、画像の品質とリアリズムが不足していることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: I explored adapting Stable Diffusion v1.5 for generating domain-specific satellite and aerial images in remote sensing. Recognizing the limitations of existing models like Midjourney and Stable Diffusion, trained primarily on natural RGB images and lacking context for remote sensing, I used the RSICD dataset to train a Stable Diffusion model with a loss of 0.2. I incorporated descriptive captions from the dataset for text-conditioning. Additionally, I created a synthetic dataset for a Land Use Land Classification (LULC) task, employing prompting techniques with RAG and ChatGPT and fine-tuning a specialized remote sensing LLM. However, I faced challenges with prompt quality and model performance. I trained a classification model (ResNet18) on the synthetic dataset achieving 49.48% test accuracy in TorchGeo to create a baseline. Quantitative evaluation through FID scores and qualitative feedback from domain experts assessed the realism and quality of the generated images and dataset. Despite extensive fine-tuning and dataset iterations, results indicated subpar image quality and realism, as indicated by high FID scores and domain-expert evaluation. These findings call attention to the potential of diffusion models in remote sensing while highlighting significant challenges related to insufficient pretraining data and computational resources.
- Abstract(参考訳): 遠隔センシングにおける領域固有の衛星・空中画像生成のための安定拡散v1.5の適用について検討した。
MidjourneyやStable Diffusionといった既存のモデルの限界を認識し、自然のRGBイメージを主にトレーニングし、リモートセンシングのコンテキストを欠いた上で、RSICDデータセットを使用して、0.2の損失でStable Diffusionモデルをトレーニングしました。
私はテキストコンディショニングのためにデータセットから記述キャプションを組み込んだ。
さらに,土地利用土地分類(LULC)タスクのための合成データセットを作成し,RAGとChatGPTによるプロンプト技術を活用し,特殊なリモートセンシングLLMを微調整した。
しかし、私は素早い品質とモデルパフォーマンスの課題に直面しました。
私は、TorchGeoで49.48%のテスト精度を達成した合成データセットの分類モデル(ResNet18)をトレーニングし、ベースラインを作成しました。
FIDスコアとドメインの専門家からの質的なフィードバックによる定量的評価は、生成された画像とデータセットのリアリズムと品質を評価した。
大規模な微調整とデータセットの反復にもかかわらず、結果は、高いFIDスコアとドメインエキスパート評価によって示されるように、画像の品質とリアリズムが不足していることを示している。
これらの知見は、リモートセンシングにおける拡散モデルの可能性に注意を向け、事前学習データや計算資源の不足に関連する重要な課題を強調している。
関連論文リスト
- Super-resolving Real-world Image Illumination Enhancement: A New Dataset and A Conditional Diffusion Model [43.93772529301279]
本稿では,効率的な条件拡散確率モデルに基づくSRRIIEデータセットを提案する。
画像はILDCカメラと光学ズームレンズで撮影し、露光レベルは6EVから0EV、ISOレベルは50~12800である。
既存の手法は, 複雑なノイズから復元した画像の構造やシャープさを保ちつつも, 有効性は低いことが示唆された。
論文 参考訳(メタデータ) (2024-10-16T18:47:04Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - DiffusionSat: A Generative Foundation Model for Satellite Imagery [63.2807119794691]
現在、DiffusionSatは、現在利用可能な大規模な高解像度リモートセンシングデータセットのコレクションに基づいてトレーニングされている、最大の生成基盤モデルである。
提案手法は, リアルタイムなサンプルを作成し, 時間生成, マルチスペクトル入力の超解像, インペイントなどの複数の生成課題を解くのに利用できる。
論文 参考訳(メタデータ) (2023-12-06T16:53:17Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Thermal-Infrared Remote Target Detection System for Maritime Rescue
based on Data Augmentation with 3D Synthetic Data [4.66313002591741]
本稿では,深層学習とデータ拡張を用いた海難救助のための熱赤外(TIR)遠隔目標検出システムを提案する。
データセットの不足に対処し、モデルの堅牢性を改善するために、3Dゲーム(ARMA3)からの合成データセットを収集する。
提案したセグメンテーションモデルは,最先端セグメンテーション手法の性能を上回る。
論文 参考訳(メタデータ) (2023-10-31T12:37:49Z) - SatDM: Synthesizing Realistic Satellite Image with Semantic Layout
Conditioning using Diffusion Models [0.0]
Denoising Diffusion Probabilistic Models (DDPM) は意味的レイアウトから現実的なイメージを合成する上で大きな可能性を証明している。
本稿では,セマンティックマップを用いて高品質で多様な衛星画像を生成する条件付きDDPMモデルを提案する。
提案モデルの有効性は,本研究の文脈内で導入した詳細なラベル付きデータセットを用いて検証する。
論文 参考訳(メタデータ) (2023-09-28T19:39:13Z) - Diffusion Models for Interferometric Satellite Aperture Radar [73.01013149014865]
確率拡散モデル (Probabilistic Diffusion Models, PDMs) は、最近、非常に有望な生成モデルのクラスとして登場した。
ここでは、PDMを活用して、レーダーベースの衛星画像データセットを複数生成する。
PDMは複雑で現実的な構造を持つ画像を生成することに成功したが、サンプリング時間は依然として問題である。
論文 参考訳(メタデータ) (2023-08-31T16:26:17Z) - LARD - Landing Approach Runway Detection -- Dataset for Vision Based
Landing [2.7400353551392853]
本稿では,接近・着陸時の滑走路検出のための高品質な空中画像のデータセットを提案する。
データセットの大部分は合成画像で構成されていますが、実際の着陸映像から手動でラベル付けされた画像も提供しています。
このデータセットは、データセットの品質の分析や、検出タスクに対処するモデルの開発など、さらなる研究の道を開く。
論文 参考訳(メタデータ) (2023-04-05T08:25:55Z) - DeepDC: Deep Distance Correlation as a Perceptual Image Quality
Evaluator [53.57431705309919]
ImageNet Pre-trained Deep Neural Network (DNN)は、効果的な画像品質評価(IQA)モデルを構築するための顕著な転送性を示す。
我々は,事前学習DNN機能のみに基づく新しいフル参照IQA(FR-IQA)モデルを開発した。
5つの標準IQAデータセット上で,提案した品質モデルの優位性を示すため,包括的実験を行った。
論文 参考訳(メタデータ) (2022-11-09T14:57:27Z) - Learning to Simulate Realistic LiDARs [66.7519667383175]
リアルLiDARセンサのデータ駆動シミュレーションのためのパイプラインを提案する。
本モデルでは, 透明表面上の落下点などの現実的な効果を符号化できることが示される。
我々は2つの異なるLiDARセンサのモデルを学習し、それに従ってシミュレーションされたLiDARデータを改善する。
論文 参考訳(メタデータ) (2022-09-22T13:12:54Z) - Learning class prototypes from Synthetic InSAR with Vision Transformers [2.41710192205034]
火山活動の早期の兆候の検出は、火山の危険を評価するために重要である。
本稿では,合成干渉図の豊富な情報源を利用した新しい深層学習手法を提案する。
本報告では, 火山変動検出技術に勝る検出精度について報告する。
論文 参考訳(メタデータ) (2022-01-09T14:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。