論文の概要: CLIPPan: Adapting CLIP as A Supervisor for Unsupervised Pansharpening
- arxiv url: http://arxiv.org/abs/2511.10896v1
- Date: Fri, 14 Nov 2025 02:16:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.391447
- Title: CLIPPan: Adapting CLIP as A Supervisor for Unsupervised Pansharpening
- Title(参考訳): CLIPPan: Unsupervised PansharpeningのスーパーバイザとしてCLIPを適用する
- Authors: Lihua Jian, Jiabo Liu, Shaowu Wu, Lihui Chen,
- Abstract要約: そこで本研究では,CLIPをスーパーバイザーとして利用することにより,フル解像度でモデルトレーニングを行えるunsupervised pansharpening frameworkであるCLIPPanを提案する。
私たちはまず,CLIPに適応して低分解能マルチスペクトル,パンクロマチック,高分解能マルチスペクトル画像を認識する軽量な微調整パイプラインを提案する。
次に、セマンティック言語制約を統合した新しいテキストトロスを定式化し、画像レベルの融合遷移とプロトコルに沿ったテキストプロンプトを整合させる。
- 参考スコア(独自算出の注目度): 3.7039226660768656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable advancements in supervised pansharpening neural networks, these methods face domain adaptation challenges of resolution due to the intrinsic disparity between simulated reduced-resolution training data and real-world full-resolution scenarios.To bridge this gap, we propose an unsupervised pansharpening framework, CLIPPan, that enables model training at full resolution directly by taking CLIP, a visual-language model, as a supervisor. However, directly applying CLIP to supervise pansharpening remains challenging due to its inherent bias toward natural images and limited understanding of pansharpening tasks. Therefore, we first introduce a lightweight fine-tuning pipeline that adapts CLIP to recognize low-resolution multispectral, panchromatic, and high-resolution multispectral images, as well as to understand the pansharpening process. Then, building on the adapted CLIP, we formulate a novel \textit{loss integrating semantic language constraints}, which aligns image-level fusion transitions with protocol-aligned textual prompts (e.g., Wald's or Khan's descriptions), thus enabling CLIPPan to use language as a powerful supervisory signal and guide fusion learning without ground truth. Extensive experiments demonstrate that CLIPPan consistently improves spectral and spatial fidelity across various pansharpening backbones on real-world datasets, setting a new state of the art for unsupervised full-resolution pansharpening.
- Abstract(参考訳): 教師付きパンシャーピングニューラルネットワークの顕著な進歩にもかかわらず、これらの手法は、シミュレーションされた縮小解像度トレーニングデータと実世界のフルレゾリューションシナリオとの本質的な相違による解決の領域適応課題に直面しており、このギャップを埋めるために、視覚言語モデルであるCLIPをスーパーバイザーとして利用することで、フルレゾリューションでのモデルトレーニングを可能にする、教師なしパンシャーピングフレームワークであるCLIPPanを提案する。
しかし、自然画像に対する固有の偏見と、パンシャーピングタスクの限られた理解のため、直接CLIPを適用してパンシャーピングを監督することは依然として困難である。
そこで我々はまず,CLIPに適応して低分解能マルチスペクトル,パンクロマチック,高分解能マルチスペクトル画像を認識する軽量な微調整パイプラインを導入する。
次に、適応されたCLIPに基づいて、画像レベルの融合遷移をプロトコルに準拠したテキストプロンプト(例えば、WaldやKhanの説明)と整列する、新しい‘textit{loss integring semantic language constraints} を定式化し、CLIPPanが言語を強力な監視信号として使用し、基礎的な真実なしに融合学習をガイドできるようにする。
大規模な実験により、CLIPPanは現実世界のデータセット上の様々なパンシャーピングバックボーンのスペクトルと空間の忠実度を一貫して改善し、教師なしのフル解像度パンシャーピングのための新しい最先端技術を確立した。
関連論文リスト
- PAN-Crafter: Learning Modality-Consistent Alignment for PAN-Sharpening [20.43260906326048]
本稿では,Modality-ConsistentアライメントフレームワークであるPAN-Crafterを提案する。
Modality-Adaptive Restruction (MAR)は、HRMSとPANの画像を共同で再構築する。
複数のベンチマークデータセットの実験では、PAN-Crafterがすべてのメトリクスで最新の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2025-05-29T11:46:21Z) - Panoramic Out-of-Distribution Segmentation for Autonomous Driving [25.32165408678185]
パノラマ・アウト・オブ・ディストリビューション(PanOoS)を導入し,包括的で安全なシーン理解を実現する。
POSはテキスト誘導の即時分布学習によりパノラマ画像の特徴に適応する。
POSは、主要なクローズドセットセグメンテーション機能を実現し、パノラマ理解の開発を進める。
論文 参考訳(メタデータ) (2025-05-06T13:51:26Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - PC-GANs: Progressive Compensation Generative Adversarial Networks for
Pan-sharpening [50.943080184828524]
空間情報とスペクトル情報の漸進的補償によりMS画像のシャープ化を行うパンシャーピングの新しい2段階モデルを提案する。
モデル全体が三重GANで構成されており、特定のアーキテクチャに基づいて、三重GANを同時に訓練できるように、共同補償損失関数が設計されている。
論文 参考訳(メタデータ) (2022-07-29T03:09:21Z) - Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for
Mobile Agents via Unsupervised Contrastive Learning [93.6645991946674]
我々はパノラマパノラマパノプティクスのセグメンテーションを最も総合的なシーン理解として紹介する。
完全な周囲の理解は、移動エージェントに最大限の情報を提供する。
本稿では,標準的なピンホール画像のモデルトレーニングを可能にし,学習した特徴を別のドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:07:15Z) - LDP-Net: An Unsupervised Pansharpening Network Based on Learnable
Degradation Processes [18.139096037746672]
LDP-Netと呼ばれる学習可能な劣化過程に基づく新しい教師なしネットワークを提案する。
ブルーリングブロックとグレーニングブロックは、それぞれ対応する劣化過程を学習するように設計されている。
Worldview2 および Worldview3 画像を用いた実験により,提案した LDP-Net は,HRMS サンプルを使わずに PAN と LRMS 画像を効果的に融合できることを示した。
論文 参考訳(メタデータ) (2021-11-24T13:21:22Z) - Unsupervised Cycle-consistent Generative Adversarial Networks for
Pan-sharpening [41.68141846006704]
本稿では,この問題を緩和するために,基礎的な真理を伴わずに,フルスケールの画像から学習する,教師なしの生成的敵対的枠組みを提案する。
PANおよびMS画像から2ストリーム生成器を用いてモダリティ特異的特徴を抽出し,特徴領域での融合を行い,パンシャープ画像の再構成を行う。
提案手法は,フルスケール画像のパンシャーピング性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-09-20T09:43:24Z) - Panoramic Panoptic Segmentation: Towards Complete Surrounding
Understanding via Unsupervised Contrastive Learning [97.37544023666833]
我々は,パノラマパオプティックセグメンテーションを最も総合的なシーン理解として導入する。
完全な周囲の理解は、エージェントに最大限の情報を提供する。
標準ピンホール画像のモデルトレーニングを可能にし、学習した機能を異なるドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-01T09:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。