論文の概要: Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning
- arxiv url: http://arxiv.org/abs/2510.24321v1
- Date: Tue, 28 Oct 2025 11:39:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.095835
- Title: Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning
- Title(参考訳): CLIP と Prompt Learning を用いたFew-Shot Remote Sensing Image Scene Classification
- Authors: Ivica Dimitrovski, Vlatko Spasev, Ivan Kitanovski,
- Abstract要約: 我々は,数ショットのリモートセンシング画像シーン分類のための軽量かつ効率的な適応戦略として,即時学習を探求する。
これらのプロンプト学習手法を,手作りプロンプトを用いたゼロショットCLIPと,凍結したCLIPの特徴を訓練した線形プローブの2つの標準ベースラインに対してベンチマークした。
我々の研究結果は、衛星画像と空中画像の領域ギャップを埋めるスケーラブルで効率的な方法として、迅速な学習を裏付けている。
- 参考スコア(独自算出の注目度): 0.9558392439655014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote sensing applications increasingly rely on deep learning for scene classification. However, their performance is often constrained by the scarcity of labeled data and the high cost of annotation across diverse geographic and sensor domains. While recent vision-language models like CLIP have shown promise by learning transferable representations at scale by aligning visual and textual modalities, their direct application to remote sensing remains suboptimal due to significant domain gaps and the need for task-specific semantic adaptation. To address this critical challenge, we systematically explore prompt learning as a lightweight and efficient adaptation strategy for few-shot remote sensing image scene classification. We evaluate several representative methods, including Context Optimization, Conditional Context Optimization, Multi-modal Prompt Learning, and Prompting with Self-Regulating Constraints. These approaches reflect complementary design philosophies: from static context optimization to conditional prompts for enhanced generalization, multi-modal prompts for joint vision-language adaptation, and semantically regularized prompts for stable learning without forgetting. We benchmark these prompt-learning methods against two standard baselines: zero-shot CLIP with hand-crafted prompts and a linear probe trained on frozen CLIP features. Through extensive experiments on multiple benchmark remote sensing datasets, including cross-dataset generalization tests, we demonstrate that prompt learning consistently outperforms both baselines in few-shot scenarios. Notably, Prompting with Self-Regulating Constraints achieves the most robust cross-domain performance. Our findings underscore prompt learning as a scalable and efficient solution for bridging the domain gap in satellite and aerial imagery, providing a strong foundation for future research in this field.
- Abstract(参考訳): リモートセンシングアプリケーションは、シーン分類の深層学習にますます依存している。
しかし、ラベル付きデータの不足や、さまざまな地理的およびセンサー領域にわたるアノテーションの高コストにより、その性能は制約されることが多い。
最近のCLIPのようなビジョン言語モデルは、視覚的およびテキスト的モダリティを整列させることで、大規模に転送可能な表現を学習することで、将来性を示しているが、リモートセンシングへの直接的な適用は、大きなドメインギャップとタスク固有のセマンティック適応の必要性により、依然として最適ではない。
この重要な課題に対処するために,数発のリモートセンシング画像シーン分類のための軽量かつ効率的な適応戦略として,プロンプトラーニングを体系的に検討する。
本研究では,コンテキスト最適化,条件付きコンテキスト最適化,マルチモーダル・プロンプト学習,自己規制制約付きプロンプトなど,いくつかの代表的な手法を評価する。
これらのアプローチは、静的な文脈最適化から、一般化のための条件付きプロンプト、共同視覚言語適応のためのマルチモーダルプロンプト、忘れずに安定した学習のためのセマンティックな正規化プロンプトなど、相補的な設計哲学を反映している。
これらのプロンプト学習手法を,手作りプロンプトを用いたゼロショットCLIPと,凍結したCLIPの特徴を訓練した線形プローブの2つの標準ベースラインに対してベンチマークした。
クロスデータセットの一般化テストを含む、複数のベンチマークリモートセンシングデータセットに関する広範な実験を通じて、素早い学習が数ショットシナリオで両方のベースラインを一貫して上回ることを示す。
特に、Prompting with Self-Regulating Constraintsは、最も堅牢なクロスドメインパフォーマンスを実現する。
我々の研究成果は、衛星画像と空中画像の領域ギャップを埋めるスケーラブルで効率的な方法として、迅速な学習を立証している。
関連論文リスト
- AttriPrompt: Dynamic Prompt Composition Learning for CLIP [41.37140060183439]
AttriPromptは、テキストの意味表現を強化し洗練する新しいフレームワークである。
本稿では,提案するテキスト特徴量と非プロンプトテキスト特徴量の間に明示的な正規化制約を適用することで,自己正規化機構を導入する。
実験では、AttriPromptが最先端の手法よりも優れており、ベース・ツー・ノーベル・セッティングにおいて最大7.37%の改善が達成されている。
論文 参考訳(メタデータ) (2025-09-07T07:07:59Z) - ChordPrompt: Orchestrating Cross-Modal Prompt Synergy for Multi-Domain Incremental Learning in CLIP [12.05848395374439]
継続学習は、事前訓練された視覚言語モデルに、新規または以前は表現されていないデータ分布に効果的に適応させる権限を与える。
ChordPromptは、視覚情報とテキスト情報の相互作用を活用するためのクロスモーダルプロンプトを導入している。
ChordPromptはゼロショットの一般化とダウンストリームのタスクパフォーマンスにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-06-24T13:22:06Z) - An Empirical Study of Federated Prompt Learning for Vision Language Model [89.2963764404892]
本稿では,言語プロンプト学習(VPT)と視覚プロンプト学習(VLM)の行動的差異を系統的に検討する。
我々は、FPL(Federated Prompt Learning)の堅牢性を評価するために、クライアントスケール、集約戦略、即時長といった様々なFLと迅速な構成の影響を評価する。
論文 参考訳(メタデータ) (2025-05-29T03:09:15Z) - DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models [5.027492394254859]
DiSa は Directional Saliency-Aware Prompt Learning フレームワークである。
一般化を強化するために2つの補完正則化戦略を統合する。
さまざまな設定において、最先端のプロンプト学習方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-05-26T00:14:52Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
グローバルプロンプトとローカルプロンプトの相補的学習を改善するために,局所的コントラスト学習を導入する。
ZSADにおけるGlocalCLIPの一般化性能を実世界の15のデータセットで実証した。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。