論文の概要: UniDiff: Parameter-Efficient Adaptation of Diffusion Models for Land Cover Classification with Multi-Modal Remotely Sensed Imagery and Sparse Annotations
- arxiv url: http://arxiv.org/abs/2512.00261v1
- Date: Sat, 29 Nov 2025 00:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.1383
- Title: UniDiff: Parameter-Efficient Adaptation of Diffusion Models for Land Cover Classification with Multi-Modal Remotely Sensed Imagery and Sparse Annotations
- Title(参考訳): UniDiff:マルチモードリモートセンシング画像とスパースアノテーションを用いた土地被覆分類のための拡散モデルのパラメータ効率の良い適応
- Authors: Yuzhen Hu, Saurabh Prasad,
- Abstract要約: 本稿では,1つのイメージネット予測拡散モデルを用いて,対象領域データのみを用いて複数の知覚モダリティに適応するパラメータ効率のフレームワークを提案する。
UniDiffは、FiLMベースのタイムステップ・モダリティ条件付け、パラメータの約5%のパラメータ効率適応、および擬似RGBアンカーを組み合わせることで、事前訓練された表現を保存し、破滅的な忘れを防止する。
- 参考スコア(独自算出の注目度): 3.588053519843616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse annotations fundamentally constrain multimodal remote sensing: even recent state-of-the-art supervised methods such as MSFMamba are limited by the availability of labeled data, restricting their practical deployment despite architectural advances. ImageNet-pretrained models provide rich visual representations, but adapting them to heterogeneous modalities such as hyperspectral imaging (HSI) and synthetic aperture radar (SAR) without large labeled datasets remains challenging. We propose UniDiff, a parameter-efficient framework that adapts a single ImageNet-pretrained diffusion model to multiple sensing modalities using only target-domain data. UniDiff combines FiLM-based timestep-modality conditioning, parameter-efficient adaptation of approximately 5% of parameters, and pseudo-RGB anchoring to preserve pre-trained representations and prevent catastrophic forgetting. This design enables effective feature extraction from remote sensing data under sparse annotations. Our results with two established multi-modal benchmarking datasets demonstrate that unsupervised adaptation of a pre-trained diffusion model effectively mitigates annotation constraints and achieves effective fusion of multi-modal remotely sensed data.
- Abstract(参考訳): スパースアノテーションは、マルチモーダルリモートセンシングを根本的に制限する:MSFMambaのような最新の最先端の監視手法でさえ、ラベル付きデータの可用性によって制限され、アーキテクチャの進歩にもかかわらず実践的な展開を制限する。
ImageNet-Pretrained Modelは、リッチな視覚表現を提供するが、ハイパースペクトルイメージング(HSI)や合成開口レーダ(SAR)のような、大きなラベル付きデータセットを持たない不均一なモダリティに適応することは依然として困難である。
対象領域データのみを用いて,単一のイメージネット予測拡散モデルに複数の感覚モーダルを適応させるパラメータ効率のフレームワークUniDiffを提案する。
UniDiffは、FiLMベースのタイムステップ・モダリティ条件付け、パラメータの約5%のパラメータ効率適応、および擬似RGBアンカーを組み合わせることで、事前訓練された表現を保存し、破滅的な忘れを防止する。
この設計により、スパースアノテーションの下でリモートセンシングデータから効果的な特徴抽出が可能となる。
2つの確立されたマルチモーダル・ベンチマーク・データセットを用いて、事前学習した拡散モデルの教師なし適応がアノテーション制約を効果的に緩和し、マルチモーダルリモートセンシングデータの効果的な融合を実現することを示す。
関連論文リスト
- LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling [38.700993166492495]
本稿では,事前学習した潜伏拡散モデルを用いた再帰サンプリングによるデータセットフリーで統一的な手法を提案する。
本手法では,マルチモーダル理解モデルを用いて,タスクブレンド条件下で生成モデルにセマンティックな事前情報を提供する。
論文 参考訳(メタデータ) (2025-07-01T14:25:09Z) - Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Few-shot Online Anomaly Detection and Segmentation [29.693357653538474]
本稿では,難易度の高いオンライン異常検出・セグメンテーション(FOADS)の課題に対処することに焦点を当てる。
FOADSフレームワークでは、モデルを数ショットの通常のデータセットでトレーニングし、その後、正常サンプルと異常サンプルの両方を含む未ラベルのストリーミングデータを活用することで、その能力の検査と改善を行う。
限られたトレーニングサンプルを用いた性能向上のために,ImageNetで事前学習したCNNから抽出したマルチスケール特徴埋め込みを用いて,ロバストな表現を得る。
論文 参考訳(メタデータ) (2024-03-27T02:24:00Z) - Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる
本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T03:14:44Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。