論文の概要: RemoteCLIP: A Vision Language Foundation Model for Remote Sensing
- arxiv url: http://arxiv.org/abs/2306.11029v4
- Date: Tue, 16 Apr 2024 11:24:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 02:30:42.207373
- Title: RemoteCLIP: A Vision Language Foundation Model for Remote Sensing
- Title(参考訳): RemoteCLIP:リモートセンシングのためのビジョン言語基礎モデル
- Authors: Fan Liu, Delong Chen, Zhangqingyun Guan, Xiaocong Zhou, Jiale Zhu, Qiaolin Ye, Liyong Fu, Jun Zhou,
- Abstract要約: 遠隔センシングのための視覚言語基盤モデルであるRemoteCLIPを提案する。
リッチなセマンティクスと、シームレスなダウンストリームアプリケーションのためのアライメントされたテキスト埋め込みによって、堅牢なビジュアル機能を学ぶことを目指している。
リモートCLIPは、ゼロショット画像分類、線形探索、$textitk$-NN分類、少数ショット分類、画像テキスト検索、リモートセンシング画像におけるオブジェクトカウントなど、さまざまなダウンストリームタスクに適用できる。
- 参考スコア(独自算出の注目度): 13.814076157988225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose foundation models have led to recent breakthroughs in artificial intelligence. In remote sensing, self-supervised learning (SSL) and Masked Image Modeling (MIM) have been adopted to build foundation models. However, these models primarily learn low-level features and require annotated data for fine-tuning. Moreover, they are inapplicable for retrieval and zero-shot applications due to the lack of language understanding. To address these limitations, we propose RemoteCLIP, the first vision-language foundation model for remote sensing that aims to learn robust visual features with rich semantics and aligned text embeddings for seamless downstream application. To address the scarcity of pre-training data, we leverage data scaling which converts heterogeneous annotations into a unified image-caption data format based on Box-to-Caption (B2C) and Mask-to-Box (M2B) conversion. By further incorporating UAV imagery, we produce a 12 $\times$ larger pretraining dataset than the combination of all available datasets. RemoteCLIP can be applied to a variety of downstream tasks, including zero-shot image classification, linear probing, $\textit{k}$-NN classification, few-shot classification, image-text retrieval, and object counting in remote sensing images. Evaluation on 16 datasets, including a newly introduced RemoteCount benchmark to test the object counting ability, shows that RemoteCLIP consistently outperforms baseline foundation models across different model scales. Impressively, RemoteCLIP beats the state-of-the-art method by 9.14% mean recall on the RSITMD dataset and 8.92% on the RSICD dataset. For zero-shot classification, our RemoteCLIP outperforms the CLIP baseline by up to 6.39% average accuracy on 12 downstream datasets. Project website: https://github.com/ChenDelong1999/RemoteCLIP
- Abstract(参考訳): 汎用基盤モデルは、人工知能の最近のブレークスルーにつながっている。
リモートセンシングでは、基礎モデルを構築するために、自己教師付き学習(SSL)とMasked Image Modeling(MIM)が採用されている。
しかし、これらのモデルは、主に低レベルの特徴を学習し、微調整のために注釈付きデータを必要とする。
さらに、言語理解の欠如により、検索やゼロショットアプリケーションには適用できない。
こうした制約に対処するため,我々はリモートセンシングのための最初のビジョン言語基盤モデルであるRemoteCLIPを提案し,シームレスな下流アプリケーションのためのリッチなセマンティクスとアライメントされたテキスト埋め込みによる堅牢な視覚特徴の学習を目指している。
事前学習データの不足に対処するために、異種アノテーションをBox-to-Caption (B2C) と Mask-to-Box (M2B) の変換に基づく統合イメージキャプションデータフォーマットに変換するデータスケーリングを利用する。
UAV画像をさらに取り入れることで、利用可能なすべてのデータセットの組み合わせよりも12$\times$大きな事前トレーニングデータセットを生成します。
リモートCLIPは、ゼロショット画像分類、線形プローブ、$\textit{k}$-NN分類、少数ショット分類、画像テキスト検索、リモートセンシング画像におけるオブジェクトカウントなど、さまざまなダウンストリームタスクに適用できる。
オブジェクトカウント能力をテストするために新たに導入されたRemoteCountベンチマークを含む16のデータセットの評価は、RemoteCLIPがさまざまなモデルスケールでベースライン基盤モデルより一貫して優れていることを示している。
驚くべきことに、RemoteCLIPはRSITMDデータセットでは9.14%、RSICDデータセットでは8.92%という最先端の手法を破っている。
ゼロショット分類では、12の下流データセットの平均精度を最大6.39%向上させています。
プロジェクトウェブサイト:https://github.com/ChenDelong 1999/RemoteCLIP
関連論文リスト
- ECoDepth: Effective Conditioning of Diffusion Models for Monocular Depth Estimation [5.179738379203527]
パララックスの手がかりがない場合、学習に基づく単一画像深度推定モデルは、画像のシェーディングと文脈的手がかりに大きく依存する。
このようなモデルを、キャプチャが難しい大規模で多様なデータセットでトレーニングする必要がある。
CLIPのようなトレーニング済みの基礎モデルからの埋め込みを使用することで、いくつかのアプリケーションにおけるゼロショット転送が改善される。
論文 参考訳(メタデータ) (2024-03-27T17:53:30Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free
Domain Adaptation [20.57370550156505]
ReCLIPは、ヴィジュアル言語モデルのための、ソースフリーなドメイン適応手法である。
ReCLIPは、22の画像分類ベンチマークにおいて、CLIPの平均エラー率を30.17%から25.06%に下げることを示した。
論文 参考訳(メタデータ) (2023-08-04T18:11:40Z) - Preventing Zero-Shot Transfer Degradation in Continual Learning of
Vision-Language Models [13.340759455910721]
本稿では,視覚言語モデルの連続学習におけるゼロショット転送劣化を防止する新しい手法を提案する。
本手法は,従来のクラス増分学習環境において,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-12T10:28:07Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - ReCLIP: A Strong Zero-Shot Baseline for Referring Expression
Comprehension [114.85628613911713]
大規模事前学習モデルは領域間の画像分類に有用である。
ReCLIPは単純だが強力なゼロショットベースラインであり、ReCのための最先端の大規模モデルであるCLIPを再利用する。
論文 参考訳(メタデータ) (2022-04-12T17:55:38Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。