論文の概要: bi-modal textual prompt learning for vision-language models in remote sensing
- arxiv url: http://arxiv.org/abs/2601.20675v1
- Date: Wed, 28 Jan 2026 14:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.986118
- Title: bi-modal textual prompt learning for vision-language models in remote sensing
- Title(参考訳): リモートセンシングにおける視覚言語モデルのバイモーダルテキスト・プロンプト学習
- Authors: Pankhi Kashyap, Mainak Singha, Biplab Banerjee,
- Abstract要約: リモートセンシング(RS)タスクに適した軽量なプロンプト学習フレームワークであるBiMoRSを提案する。
BiMoRSは凍結画像キャプションモデル(BLIP-2など)を用いて、RS画像から意味的な要約を抽出する。
ライトウェイトなクロスアテンションモジュールは、融合したテキスト-視覚表現に対して学習可能なクエリプロンプトを指定し、CLIPバックボーンを変更することなくコンテキスト化されたプロンプトを生成する。
3つの領域一般化(DG)タスクにわたる4つのRSデータセット上でBiMoRSを評価し、一貫したパフォーマンス向上を観察し、強いベースラインを平均で最大2%上回った。
- 参考スコア(独自算出の注目度): 23.747598435550504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning (PL) has emerged as an effective strategy to adapt vision-language models (VLMs), such as CLIP, for downstream tasks under limited supervision. While PL has demonstrated strong generalization on natural image datasets, its transferability to remote sensing (RS) imagery remains underexplored. RS data present unique challenges, including multi-label scenes, high intra-class variability, and diverse spatial resolutions, that hinder the direct applicability of existing PL methods. In particular, current prompt-based approaches often struggle to identify dominant semantic cues and fail to generalize to novel classes in RS scenarios. To address these challenges, we propose BiMoRS, a lightweight bi-modal prompt learning framework tailored for RS tasks. BiMoRS employs a frozen image captioning model (e.g., BLIP-2) to extract textual semantic summaries from RS images. These captions are tokenized using a BERT tokenizer and fused with high-level visual features from the CLIP encoder. A lightweight cross-attention module then conditions a learnable query prompt on the fused textual-visual representation, yielding contextualized prompts without altering the CLIP backbone. We evaluate BiMoRS on four RS datasets across three domain generalization (DG) tasks and observe consistent performance gains, outperforming strong baselines by up to 2% on average. Codes are available at https://github.com/ipankhi/BiMoRS.
- Abstract(参考訳): プロンプト学習(PL)は、限られた監督下での下流タスクのために、CLIPのような視覚言語モデル(VLM)を適応するための効果的な戦略として登場した。
PLは自然画像データセットの強力な一般化を実証しているが、リモートセンシング(RS)画像への転送性はまだ未定である。
RSデータは、マルチラベルシーン、高いクラス内変動性、多様な空間分解能など、既存のPLメソッドの直接的な適用性を阻害する固有の課題を提示する。
特に、現在のプロンプトベースのアプローチは、支配的な意味的手がかりを特定するのに苦労し、RSシナリオにおける新しいクラスへの一般化に失敗することが多い。
これらの課題に対処するために、我々は、RSタスクに適した軽量なバイモーダル・プロンプト学習フレームワークBiMoRSを提案する。
BiMoRSは凍結画像キャプションモデル(例えばBLIP-2)を用いて、RS画像からテキスト意味要約を抽出する。
これらのキャプションはBERTトークンライザを使用してトークン化され、CLIPエンコーダから高レベルの視覚的特徴と融合する。
ライトウェイトなクロスアテンションモジュールは、融合したテキスト-視覚表現で学習可能なクエリプロンプトを指定し、CLIPバックボーンを変更することなくコンテキスト化されたプロンプトを生成する。
3つの領域一般化(DG)タスクにわたる4つのRSデータセット上でBiMoRSを評価し、一貫したパフォーマンス向上を観察し、強いベースラインを平均で最大2%上回った。
コードはhttps://github.com/ipankhi/BiMoRS.comで入手できる。
関連論文リスト
- Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning [0.9558392439655014]
我々は,数ショットのリモートセンシング画像シーン分類のための軽量かつ効率的な適応戦略として,即時学習を探求する。
これらのプロンプト学習手法を,手作りプロンプトを用いたゼロショットCLIPと,凍結したCLIPの特徴を訓練した線形プローブの2つの標準ベースラインに対してベンチマークした。
我々の研究結果は、衛星画像と空中画像の領域ギャップを埋めるスケーラブルで効率的な方法として、迅速な学習を裏付けている。
論文 参考訳(メタデータ) (2025-10-28T11:39:22Z) - Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - SQUARE: Semantic Query-Augmented Fusion and Efficient Batch Reranking for Training-free Zero-Shot Composed Image Retrieval [2.624097337766623]
Composed Image Retrieval (CIR) は、ユーザが指定したテキスト修正を取り入れつつ、参照画像の視覚的内容を保存するターゲット画像の検索を目的としている。
ZS-CIRを強化するために,MLLM(Multimodal Large Language Models)を利用した新しい2段階学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-30T14:41:24Z) - Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing [12.9701635989222]
平易な言語命令だけで複雑なリモートセンシング(RS)シナリオで情報を提供するのは難しい。
EarthMarkerは、視覚的なプロンプトを上昇させることで、画像、領域、点レベルのRS画像を解釈することができる。
論文 参考訳(メタデータ) (2024-07-18T15:35:00Z) - Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment [4.682326604942316]
我々は,様々な画像分類タスクにおいて高精度な視覚言語基礎モデルであるコントラスト言語-画像事前学習(CLIP)に注目した。
リモートセンシング(RS)や医用画像など、ゼロショットCLIPのパフォーマンスが最適ではない領域がまだ残っている。
CLIPの視覚的・テキスト的モダリティと異なるRS画像モダリティを一致させる手法を提案する。
論文 参考訳(メタデータ) (2024-02-15T09:31:07Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。