論文の概要: Quantitative Comparison of Fine-Tuning Techniques for Pretrained Latent Diffusion Models in the Generation of Unseen SAR Image Concepts
- arxiv url: http://arxiv.org/abs/2506.13307v1
- Date: Mon, 16 Jun 2025 09:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.082931
- Title: Quantitative Comparison of Fine-Tuning Techniques for Pretrained Latent Diffusion Models in the Generation of Unseen SAR Image Concepts
- Title(参考訳): 未確認SAR画像生成における事前学習遅延拡散モデルの微調整手法の定量的比較
- Authors: Solène Debuysère, Nicolas Trouvé, Nathan Letheule, Olivier Lévêque, Elise Colin,
- Abstract要約: 本研究は,大規模な事前学習型潜伏拡散モデルの急激な画像領域への適応について検討する:合成開口レーダ(SAR)
我々は、Low-Rank Adaptation (LoRA)のようなフルモデル微調整とパラメータ効率のアプローチを含む、複数の微調整戦略を探索、比較する。
提案手法は,テキストエンコーダのLoRAによる部分的チューニングとSAR>トークンの埋め込み学習を併用して,迅速なアライメントの維持に有効であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates the adaptation of large pre-trained latent diffusion models to a radically new imaging domain: Synthetic Aperture Radar (SAR). While these generative models, originally trained on natural images, demonstrate impressive capabilities in text-to-image synthesis, they are not natively adapted to represent SAR data, which involves different physics, statistical distributions, and visual characteristics. Using a sizeable SAR dataset (on the order of 100,000 to 1 million images), we address the fundamental question of fine-tuning such models for this unseen modality. We explore and compare multiple fine-tuning strategies, including full model fine-tuning and parameter-efficient approaches like Low-Rank Adaptation (LoRA), focusing separately on the UNet diffusion backbone and the text encoder components. To evaluate generative quality, we combine several metrics: statistical distance from real SAR distributions, textural similarity via GLCM descriptors, and semantic alignment assessed with a CLIP model fine-tuned on SAR data. Our results show that a hybrid tuning strategy yields the best performance: full fine-tuning of the UNet is better at capturing low-level SAR-specific patterns, while LoRA-based partial tuning of the text encoder, combined with embedding learning of the <SAR> token, suffices to preserve prompt alignment. This work provides a methodical strategy for adapting foundation models to unconventional imaging modalities beyond natural image domains.
- Abstract(参考訳): 本研究では,SAR(Synthetic Aperture Radar, 合成開口レーダ)による画像領域への遅延拡散モデルの適用について検討した。
これらの生成モデルは、元々は自然画像に基づいて訓練され、テキストと画像の合成において印象的な能力を示しているが、異なる物理、統計分布、視覚特性を含むSARデータを表現するためにネイティブに適応していない。
サイズ可能なSARデータセット(100万から100万の画像の順)を用いて、このようなモデルを微調整するという根本的な問題に対処する。
我々は、UNet拡散バックボーンとテキストエンコーダコンポーネントを別々に焦点をあて、フルモデルファインチューニングやLo-Rank Adaptation (LoRA)のようなパラメータ効率の高いアプローチを含む複数の微調整戦略を探索、比較する。
生成品質を評価するために、実SAR分布からの統計的距離、GLCM記述子によるテクスチャ類似性、およびSARデータに基づくCLIPモデルによるセマンティックアライメント(セマンティックアライメント)を組み合わせる。
その結果,UNetの完全微調整は低レベルなSARパターンの取得に優れ,LoRAベースのテキストエンコーダの部分的チューニングは<SAR>トークンの埋め込み学習と相まって,即時アライメントを維持するのに十分であることがわかった。
この研究は、自然画像領域を超えた非伝統的な画像モダリティに基礎モデルを適用するための方法論的戦略を提供する。
関連論文リスト
- Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - PromptMID: Modal Invariant Descriptors Based on Diffusion and Vision Foundation Models for Optical-SAR Image Matching [15.840638449527399]
本稿では,テキストプロンプトを用いたモダリティ不変記述子構築手法であるPromptMIDを提案する。
PromptMIDは、事前訓練された拡散モデルと視覚基礎モデルを活用することで、マルチスケールのモダリティ不変の特徴を抽出する。
4つの異なる領域の光学SAR画像データセットの実験により、PromptMIDは最先端のマッチング方法より優れていることが示された。
論文 参考訳(メタデータ) (2025-02-25T11:19:26Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - A Feature Fusion-Net Using Deep Spatial Context Encoder and
Nonstationary Joint Statistical Model for High Resolution SAR Image
Classification [10.152675581771113]
HR SAR画像に対して, エンドツーエンドの教師付き分類法を提案する。
より効果的な空間特徴を抽出するために,新しい深部空間コンテキストエンコーダネットワーク(DSCEN)を提案する。
統計の多様性を高めるため、非定常連成統計モデル(NS-JSM)が採用され、グローバルな統計特性を形成する。
論文 参考訳(メタデータ) (2021-05-11T06:20:14Z) - Sparse Signal Models for Data Augmentation in Deep Learning ATR [0.8999056386710496]
ドメイン知識を取り入れ,データ集約学習アルゴリズムの一般化能力を向上させるためのデータ拡張手法を提案する。
本研究では,空間領域における散乱中心のスパース性とアジムタル領域における散乱係数の滑らかな変動構造を活かし,過パラメータモデルフィッティングの問題を解く。
論文 参考訳(メタデータ) (2020-12-16T21:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。