論文の概要: Quantitative Comparison of Fine-Tuning Techniques for Pretrained Latent Diffusion Models in the Generation of Unseen SAR Images
- arxiv url: http://arxiv.org/abs/2506.13307v2
- Date: Thu, 14 Aug 2025 16:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.336419
- Title: Quantitative Comparison of Fine-Tuning Techniques for Pretrained Latent Diffusion Models in the Generation of Unseen SAR Images
- Title(参考訳): 未確認SAR画像生成における事前学習遅延拡散モデルの微調整手法の定量的比較
- Authors: Solène Debuysère, Nicolas Trouvé, Nathan Letheule, Olivier Lévêque, Elise Colin,
- Abstract要約: 我々は、SAR(Synthetic Aperture Radar)のモダリティに、オープンソースのテキスト・ツー・イメージ基盤モデルを適用する。
我々は,UNet拡散バックボーン,変分オートエンコーダ(VAE)およびテキストエンコーダの完全な微調整とパラメータ効率の低いローランド適応(LoRA)を比較した。
この結果から,テキストエンコーダと学習トークン埋め込みベストにLoRAを併用したハイブリッド戦略フルUNetチューニングが,SAR形状とテクスチャを保存できることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a framework for adapting a large pretrained latent diffusion model to high-resolution Synthetic Aperture Radar (SAR) image generation. The approach enables controllable synthesis and the creation of rare or out-of-distribution scenes beyond the training set. Rather than training a task-specific small model from scratch, we adapt an open-source text-to-image foundation model to the SAR modality, using its semantic prior to align prompts with SAR imaging physics (side-looking geometry, slant-range projection, and coherent speckle with heavy-tailed statistics). Using a 100k-image SAR dataset, we compare full fine-tuning and parameter-efficient Low-Rank Adaptation (LoRA) across the UNet diffusion backbone, the Variational Autoencoder (VAE), and the text encoders. Evaluation combines (i) statistical distances to real SAR amplitude distributions, (ii) textural similarity via Gray-Level Co-occurrence Matrix (GLCM) descriptors, and (iii) semantic alignment using a SAR-specialized CLIP model. Our results show that a hybrid strategy-full UNet tuning with LoRA on the text encoders and a learned token embedding-best preserves SAR geometry and texture while maintaining prompt fidelity. The framework supports text-based control and multimodal conditioning (e.g., segmentation maps, TerraSAR-X, or optical guidance), opening new paths for large-scale SAR scene data augmentation and unseen scenario simulation in Earth observation.
- Abstract(参考訳): 本稿では,SAR(Synthetic Aperture Radar)画像生成のためのフレームワークを提案する。
このアプローチは、トレーニングセットを超えて、コントロール可能な合成とレアまたはアウト・オブ・ディストリビューションのシーンの作成を可能にします。
タスク固有の小さなモデルをスクラッチからトレーニングするのではなく、SARモダリティに、SARイメージング物理(サイドルックル幾何学、スラットレンジ投影、重み付き統計付きコヒーレントスペックル)とプロンプトを整合させる前に、そのセマンティクスを用いて、オープンソースのテキスト・ツー・イメージ基盤モデルを適用する。
100kイメージのSARデータセットを用いて、UNet拡散バックボーン、変分オートエンコーダ(VAE)、テキストエンコーダの完全な微調整とパラメータ効率の低いローランド適応(LoRA)を比較した。
評価の組み合わせ
(i)実SAR振幅分布に対する統計的距離
(二)Gray-Level Co-occurrence Matrix(GLCM)記述子によるテクスチャ類似性及び
3)SAR特化CLIPモデルを用いた意味的アライメント
この結果から,テキストエンコーダ上でのLoRAと学習トークン埋め込みベストを用いたハイブリッド戦略フルUNetチューニングは,迅速な忠実さを維持しつつ,SAR形状とテクスチャを保存できることが示唆された。
このフレームワークは、テキストベースの制御とマルチモーダルコンディショニング(例えば、セグメンテーションマップ、TerraSAR-X、または光誘導)をサポートし、地球観測における大規模SARシーンデータ拡張のための新しいパスを開く。
関連論文リスト
- Knowledge-guided Complex Diffusion Model for PolSAR Image Classification in Contourlet Domain [58.46450049579116]
本稿では,Contourlet領域におけるPolSAR画像分類のための知識誘導複合拡散モデルを提案する。
具体的には、まずデータを低周波サブバンドと高周波サブバンドに分解するためにContourlet変換を適用する。
次に、低周波成分の統計特性をモデル化するために、知識誘導複合拡散ネットワークを設計する。
論文 参考訳(メタデータ) (2025-07-08T04:50:28Z) - Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - PromptMID: Modal Invariant Descriptors Based on Diffusion and Vision Foundation Models for Optical-SAR Image Matching [15.840638449527399]
本稿では,テキストプロンプトを用いたモダリティ不変記述子構築手法であるPromptMIDを提案する。
PromptMIDは、事前訓練された拡散モデルと視覚基礎モデルを活用することで、マルチスケールのモダリティ不変の特徴を抽出する。
4つの異なる領域の光学SAR画像データセットの実験により、PromptMIDは最先端のマッチング方法より優れていることが示された。
論文 参考訳(メタデータ) (2025-02-25T11:19:26Z) - Conditional Brownian Bridge Diffusion Model for VHR SAR to Optical Image Translation [5.578820789388206]
本文は,Brownian Bridge Diffusion Model(BBDM)に基づく条件付き画像から画像への変換手法を提案する。
我々は、MSAWデータセット、ペアSAR、0.5m Very-High-Resolution (VHR) の光学画像収集に関する総合的な実験を行った。
論文 参考訳(メタデータ) (2024-08-15T05:43:46Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - A Feature Fusion-Net Using Deep Spatial Context Encoder and
Nonstationary Joint Statistical Model for High Resolution SAR Image
Classification [10.152675581771113]
HR SAR画像に対して, エンドツーエンドの教師付き分類法を提案する。
より効果的な空間特徴を抽出するために,新しい深部空間コンテキストエンコーダネットワーク(DSCEN)を提案する。
統計の多様性を高めるため、非定常連成統計モデル(NS-JSM)が採用され、グローバルな統計特性を形成する。
論文 参考訳(メタデータ) (2021-05-11T06:20:14Z) - Sparse Signal Models for Data Augmentation in Deep Learning ATR [0.8999056386710496]
ドメイン知識を取り入れ,データ集約学習アルゴリズムの一般化能力を向上させるためのデータ拡張手法を提案する。
本研究では,空間領域における散乱中心のスパース性とアジムタル領域における散乱係数の滑らかな変動構造を活かし,過パラメータモデルフィッティングの問題を解く。
論文 参考訳(メタデータ) (2020-12-16T21:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。