論文の概要: FarSLIP: Discovering Effective CLIP Adaptation for Fine-Grained Remote Sensing Understanding
- arxiv url: http://arxiv.org/abs/2511.14901v1
- Date: Tue, 18 Nov 2025 20:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.523185
- Title: FarSLIP: Discovering Effective CLIP Adaptation for Fine-Grained Remote Sensing Understanding
- Title(参考訳): FarSLIP:きめ細かいリモートセンシング理解のための効果的なCLIP適応の発見
- Authors: Zhenshi Li, Weikang Yu, Dilxat Muhtar, Xueliang Zhang, Pengfeng Xiao, Pedram Ghamisi, Xiao Xiang Zhu,
- Abstract要約: 現在のRS画像テキストデータセットは、オブジェクトレベルのラベルからグローバルキャプションを生成する。
RSデータへの直接適用は、しばしばパフォーマンスの低下につながる。
FarSLIP は,粒度の細かい RS Language Image Pretraining フレームワークである。
- 参考スコア(独自算出の注目度): 27.61517650555534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As CLIP's global alignment limits its ability to capture fine-grained details, recent efforts have focused on enhancing its region-text alignment. However, current remote sensing (RS)-specific CLIP variants still inherit this limited spatial awareness. We identify two key limitations behind this: (1) current RS image-text datasets generate global captions from object-level labels, leaving the original object-level supervision underutilized; (2) despite the success of region-text alignment methods in general domain, their direct application to RS data often leads to performance degradation. To address these, we construct the first multi-granularity RS image-text dataset, MGRS-200k, featuring rich object-level textual supervision for RS region-category alignment. We further investigate existing fine-grained CLIP tuning strategies and find that current explicit region-text alignment methods, whether in a direct or indirect way, underperform due to severe degradation of CLIP's semantic coherence. Building on these, we propose FarSLIP, a Fine-grained Aligned RS Language-Image Pretraining framework. Rather than the commonly used patch-to-CLS self-distillation, FarSLIP employs patch-to-patch distillation to align local and global visual cues, which improves feature discriminability while preserving semantic coherence. Additionally, to effectively utilize region-text supervision, it employs simple CLS token-based region-category alignment rather than explicit patch-level alignment, further enhancing spatial awareness. FarSLIP features improved fine-grained vision-language alignment in RS domain and sets a new state of the art not only on RS open-vocabulary semantic segmentation, but also on image-level tasks such as zero-shot classification and image-text retrieval. Our dataset, code, and models are available at https://github.com/NJU-LHRS/FarSLIP.
- Abstract(参考訳): CLIPのグローバルアライメントは、きめ細かい詳細をキャプチャする能力を制限しているため、最近の取り組みは、リージョンテキストアライメントの強化に重点を置いている。
しかし、現在のリモートセンシング(RS)固有のCLIPは、この限られた空間認識を継承している。
1)現在のRS画像テキストデータセットは、オブジェクトレベルのラベルからグローバルキャプションを生成し、元のオブジェクトレベルの監督を未使用のまま残している。
これらの問題に対処するため、我々は最初の多粒性RS画像テキストデータセットMGRS-200kを構築し、RS領域分類アライメントのためのリッチなオブジェクトレベルのテキスト管理を特徴とする。
さらに、既存のきめ細かいCLIPチューニング戦略について検討し、CLIPのセマンティックコヒーレンスを著しく劣化させるため、直接的あるいは間接的に、現在の明示的な領域テキストアライメント手法が不十分であることを示す。
そこで我々は,FarSLIPを提案する。FarSLIPは粒度調整型言語画像事前学習フレームワークである。
FarSLIPは一般的に使われるパッチ・ツー・CLSの自己蒸留ではなく、パッチ・ツー・パッチの蒸留を用いて局所的およびグローバルな視覚的手がかりを調整し、セマンティック・コヒーレンスを保ちながら特徴の識別性を向上する。
さらに、領域テキストの監督を効果的に活用するために、明示的なパッチレベルのアライメントではなく、単純なCLSトークンベースのリージョンカテゴリアライメントを採用し、空間的認識をさらに強化する。
FarSLIPは、RSドメインの細かな視覚言語アライメントを改善し、RSのオープン語彙セマンティックセマンティックセグメンテーションだけでなく、ゼロショット分類や画像テキスト検索といった画像レベルのタスクにも新たな最先端を設定できる。
私たちのデータセット、コード、モデルはhttps://github.com/NJU-LHRS/FarSLIP.comで公開されています。
関連論文リスト
- CoPatch: Zero-Shot Referring Image Segmentation by Leveraging Untapped Spatial Knowledge in CLIP [26.827036116024914]
textscCoPatchはゼロショットRISフレームワークで、テキストと画像の両方の空間表現を強化する。
また,textscCoPatchは, RefCOCO, RefCOCO+, RefCOCOg, PhraseCut (+ 2--7 mIoU) のゼロショットRISにおける空間接地を,追加の訓練を必要とせずに大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-09-27T04:12:10Z) - DGL-RSIS: Decoupling Global Spatial Context and Local Class Semantics for Training-Free Remote Sensing Image Segmentation [23.33389872430993]
視覚とテキストの入力を分離する学習自由フレームワークDGL-RSISを提案する。
このフレームワークは、ローカルセマンティックレベルとグローバルコンテキストレベルの両方で視覚言語アライメントを実行する。
拡張テキスト特徴とマスク誘導視覚特徴とをマッチングすることにより、マスク分類を可能にする。
論文 参考訳(メタデータ) (2025-08-30T19:45:25Z) - Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation [19.26516470653798]
画像レベルラベル付き弱スーパービジョンセマンティック(WSSS)は、クラスマップ(CAM)を用いた画素レベルの予測を実現することを目的としている。
最近の手法は主にCAM生成のための画像テキストアライメントに重点を置いているが、パッチテキストアライメントにおけるCLIPの可能性はいまだ解明されていない。
我々は,WSSS のパッチテキストアライメントパラダイムを通じて,CLIP の密集した知識を探索する ExCEL を提案する。
論文 参考訳(メタデータ) (2025-03-26T02:00:49Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - Mind the Modality Gap: Towards a Remote Sensing Vision-Language Model via Cross-modal Alignment [4.682326604942316]
我々は,様々な画像分類タスクにおいて高精度な視覚言語基礎モデルであるコントラスト言語-画像事前学習(CLIP)に注目した。
リモートセンシング(RS)や医用画像など、ゼロショットCLIPのパフォーマンスが最適ではない領域がまだ残っている。
CLIPの視覚的・テキスト的モダリティと異なるRS画像モダリティを一致させる手法を提案する。
論文 参考訳(メタデータ) (2024-02-15T09:31:07Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。