論文の概要: RemoteCLIP: A Vision Language Foundation Model for Remote Sensing
- arxiv url: http://arxiv.org/abs/2306.11029v3
- Date: Thu, 8 Feb 2024 04:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 19:35:29.723098
- Title: RemoteCLIP: A Vision Language Foundation Model for Remote Sensing
- Title(参考訳): RemoteCLIP:リモートセンシングのためのビジョン言語基礎モデル
- Authors: Fan Liu, Delong Chen, Zhangqingyun Guan, Xiaocong Zhou, Jiale Zhu,
Qiaolin Ye, Liyong Fu, Jun Zhou
- Abstract要約: 遠隔センシングのための視覚言語基盤モデルであるRemoteCLIPを提案する。
リッチなセマンティクスと、シームレスなダウンストリームアプリケーションのためのアライメントされたテキスト埋め込みによって、堅牢なビジュアル機能を学ぶことを目指している。
リモートCLIPは、ゼロショット画像分類、線形探索、$textitk$-NN分類、少数ショット分類、画像テキスト検索、リモートセンシング画像におけるオブジェクトカウントなど、さまざまなダウンストリームタスクに適用できる。
- 参考スコア(独自算出の注目度): 14.409051265944148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose foundation models have led to recent breakthroughs in
artificial intelligence. In remote sensing, self-supervised learning (SSL) and
Masked Image Modeling (MIM) have been adopted to build foundation models.
However, these models primarily learn low-level features and require annotated
data for fine-tuning. Moreover, they are inapplicable for retrieval and
zero-shot applications due to the lack of language understanding. To address
these limitations, we propose RemoteCLIP, the first vision-language foundation
model for remote sensing that aims to learn robust visual features with rich
semantics and aligned text embeddings for seamless downstream application. To
address the scarcity of pre-training data, we leverage data scaling which
converts heterogeneous annotations into a unified image-caption data format
based on Box-to-Caption (B2C) and Mask-to-Box (M2B) conversion. By further
incorporating UAV imagery, we produce a 12 $\times$ larger pretraining dataset
than the combination of all available datasets. RemoteCLIP can be applied to a
variety of downstream tasks, including zero-shot image classification, linear
probing, $\textit{k}$-NN classification, few-shot classification, image-text
retrieval, and object counting in remote sensing images. Evaluation on 16
datasets, including a newly introduced RemoteCount benchmark to test the object
counting ability, shows that RemoteCLIP consistently outperforms baseline
foundation models across different model scales. Impressively, RemoteCLIP beats
the state-of-the-art method by 9.14% mean recall on the RSITMD dataset and
8.92% on the RSICD dataset. For zero-shot classification, our RemoteCLIP
outperforms the CLIP baseline by up to 6.39% average accuracy on 12 downstream
datasets. Project website: https://github.com/ChenDelong1999/RemoteCLIP
- Abstract(参考訳): 汎用的な基礎モデルは、最近の人工知能のブレークスルーに繋がった。
リモートセンシングでは、基礎モデルを構築するために、自己教師付き学習(SSL)とMasked Image Modeling(MIM)が採用されている。
しかし、これらのモデルは主に低レベルの特徴を学習し、微調整のために注釈付きデータを必要とする。
さらに、言語理解が欠如しているため、検索やゼロショットアプリケーションにも適用できない。
こうした制約に対処するため,我々はリモートセンシングのための最初のビジョン言語基盤モデルであるRemoteCLIPを提案し,シームレスな下流アプリケーションのためのリッチなセマンティクスとアライメントされたテキスト埋め込みによる堅牢な視覚特徴の学習を目指している。
事前学習データの不足に対処するために、異種アノテーションをBox-to-Caption (B2C) と Mask-to-Box (M2B) の変換に基づく統合イメージキャプションデータフォーマットに変換するデータスケーリングを利用する。
UAV画像をさらに取り入れることで、利用可能なすべてのデータセットの組み合わせよりも12$\times$大きな事前トレーニングデータセットを生成します。
リモートCLIPは、ゼロショット画像分類、線形プローブ、$\textit{k}$-NN分類、少数ショット分類、画像テキスト検索、リモートセンシング画像におけるオブジェクトカウントなど、さまざまなダウンストリームタスクに適用できる。
オブジェクトカウント能力をテストするために新たに導入されたRemoteCountベンチマークを含む16のデータセットの評価は、RemoteCLIPがさまざまなモデルスケールでベースライン基盤モデルより一貫して優れていることを示している。
驚くべきことに、RemoteCLIPはRSITMDデータセットでは9.14%、RSICDデータセットでは8.92%という最先端の手法を破っている。
ゼロショット分類では、12の下流データセットの平均精度を最大6.39%向上させています。
プロジェクトウェブサイト:https://github.com/ChenDelong 1999/RemoteCLIP
関連論文リスト
- GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Demystifying CLIP Data [89.2132793325337]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free
Domain Adaptation [20.57370550156505]
ReCLIPは、ヴィジュアル言語モデルのための、ソースフリーなドメイン適応手法である。
ReCLIPは、22の画像分類ベンチマークにおいて、CLIPの平均エラー率を30.17%から25.06%に下げることを示した。
論文 参考訳(メタデータ) (2023-08-04T18:11:40Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Preventing Zero-Shot Transfer Degradation in Continual Learning of
Vision-Language Models [13.340759455910721]
本稿では,視覚言語モデルの連続学習におけるゼロショット転送劣化を防止する新しい手法を提案する。
本手法は,従来のクラス増分学習環境において,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-12T10:28:07Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - ReCLIP: A Strong Zero-Shot Baseline for Referring Expression
Comprehension [114.85628613911713]
大規模事前学習モデルは領域間の画像分類に有用である。
ReCLIPは単純だが強力なゼロショットベースラインであり、ReCのための最先端の大規模モデルであるCLIPを再利用する。
論文 参考訳(メタデータ) (2022-04-12T17:55:38Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。