論文の概要: C-SAW: Self-Supervised Prompt Learning for Image Generalization in
Remote Sensing
- arxiv url: http://arxiv.org/abs/2311.15812v1
- Date: Mon, 27 Nov 2023 13:35:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 15:21:27.702127
- Title: C-SAW: Self-Supervised Prompt Learning for Image Generalization in
Remote Sensing
- Title(参考訳): C-SAW:リモートセンシングにおける画像一般化のための自己監督型プロンプト学習
- Authors: Avigyan Bhattacharya, Mainak Singha, Ankit Jha, Biplab Banerjee
- Abstract要約: 本稿では,大規模事前学習型視覚言語モデル(VLM)であるCLIPを用いて,光学リモートセンシング画像の解析における領域およびクラス一般化問題に焦点をあてる。
既存のプロンプト学習技術は、ドメイン情報とコンテンツ情報をプロンプトに組み込むことの重要性を見落としている。
本稿では,視覚的特徴の表現性を高めつつ,ドメイン不変の即時学習を保証するソリューションを提案する。
- 参考スコア(独自算出の注目度): 12.930814370829893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on domain and class generalization problems in analyzing optical
remote sensing images, using the large-scale pre-trained vision-language model
(VLM), CLIP. While contrastively trained VLMs show impressive zero-shot
generalization performance, their effectiveness is limited when dealing with
diverse domains during training and testing. Existing prompt learning
techniques overlook the importance of incorporating domain and content
information into the prompts, which results in a drop in performance while
dealing with such multi-domain data. To address these challenges, we propose a
solution that ensures domain-invariant prompt learning while enhancing the
expressiveness of visual features. We observe that CLIP's vision encoder
struggles to identify contextual image information, particularly when image
patches are jumbled up. This issue is especially severe in optical remote
sensing images, where land-cover classes exhibit well-defined contextual
appearances. To this end, we introduce C-SAW, a method that complements CLIP
with a self-supervised loss in the visual space and a novel prompt learning
technique that emphasizes both visual domain and content-specific features. We
keep the CLIP backbone frozen and introduce a small set of projectors for both
the CLIP encoders to train C-SAW contrastively. Experimental results
demonstrate the superiority of C-SAW across multiple remote sensing benchmarks
and different generalization tasks.
- Abstract(参考訳): 大規模事前学習型視覚言語モデル(vlm)クリップを用いて,光リモートセンシング画像の解析における領域およびクラス一般化問題に焦点を当てた。
対照的にトレーニングされたvlmは印象的なゼロショット一般化性能を示すが、トレーニングやテストでさまざまなドメインを扱う場合、その効果は限られている。
既存のプロンプト学習技術では,プロンプトにドメイン情報とコンテンツ情報を組み込むことの重要性を見落としているため,マルチドメインデータを扱う場合のパフォーマンスが低下する。
これらの課題に対処するため,視覚的特徴の表現性を高めつつ,ドメイン不変の即時学習を実現するソリューションを提案する。
CLIPのビジョンエンコーダは,特に画像パッチのジャンブルアップ時に,コンテキストイメージ情報の識別に苦慮している。
この問題は、ランドカバークラスが明確に定義されたコンテキストの外観を示す光学リモートセンシング画像において特に深刻である。
そこで我々は,CLIPを視覚空間の自己監督的損失に補完する手法であるC-SAWと,視覚領域とコンテンツ固有の特徴の両方を強調する新しいプロンプト学習技術を紹介する。
私たちはCLIPのバックボーンを凍結させ、CLIPエンコーダがC-SAWを対照的に訓練するための小さなプロジェクタを導入します。
複数のリモートセンシングベンチマークと異なる一般化タスクにおけるC-SAWの優位性を示す実験結果が得られた。
関連論文リスト
- MLIP: Efficient Multi-Perspective Language-Image Pretraining with Exhaustive Data Utilization [25.53345417279545]
Contrastive Language-Image Pretraining (CLIP) は、マルチモーダル研究の急速な進歩に繋がる顕著な成功を収めた。
CLIPは、表現学習中の各画像テキストペアに対して、単一のコントラスト的な監督に依存している。
これらの問題に対処するために,MLIP(Multi-Perspective Language- Image Pretraining)を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:49:11Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - GOPro: Generate and Optimize Prompts in CLIP using Self-Supervised
Learning [14.532939492926406]
我々は、CLIPの対照的な損失とSSLの損失の課題を克服するために、GOProと呼ばれる素早い学習ベースモデルを提案する。
GOroは、CLIPとSSLの長所を原則的に組み合わせて、3つの損失目標すべてに対してエンドツーエンドでトレーニングされている。
論文 参考訳(メタデータ) (2023-08-22T17:53:26Z) - APPLeNet: Visual Attention Parameterized Prompt Learning for Few-Shot
Remote Sensing Image Generalization using CLIP [12.73827827842155]
視覚注意条件付きPrompts Learning Network (APPLeNet) と呼ばれる新しい画像条件付きプロンプト学習戦略を提案する。
APPLeNetは、RSシーン分類におけるマルチスケールな特徴学習の重要性を強調し、ドメイン一般化タスクのための視覚スタイルとコンテンツプリミティブを歪めている。
我々の結果は、関連する文献やコードより一貫して優れており、https://github.com/mainaksingha01/APPLeNet.comで利用可能です。
論文 参考訳(メタデータ) (2023-04-12T17:20:37Z) - StyLIP: Multi-Scale Style-Conditioned Prompt Learning for CLIP-based
Domain Generalization [26.08922351077744]
StyLIPは、ドメイン間のCLIPの分類性能を高める、ドメインの一般化のための新しいアプローチである。
提案手法は,CLIPの事前学習された視覚エンコーダに埋め込まれた視覚的スタイルとコンテンツ情報を切り離すことを目的とした,ドメインに依存しないプロンプト学習戦略に焦点をあてる。
論文 参考訳(メタデータ) (2023-02-18T07:36:16Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。