論文の概要: RemoteCLIP: A Vision Language Foundation Model for Remote Sensing
- arxiv url: http://arxiv.org/abs/2306.11029v1
- Date: Mon, 19 Jun 2023 15:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 17:10:25.143859
- Title: RemoteCLIP: A Vision Language Foundation Model for Remote Sensing
- Title(参考訳): RemoteCLIP:リモートセンシングのためのビジョン言語基礎モデル
- Authors: Fan Liu, Delong Chen, Zhangqingyun Guan, Xiaocong Zhou, Jiale Zhu, Jun
Zhou
- Abstract要約: RemoteCLIPはリモートセンシングのための視覚言語基盤モデルである。
リッチなセマンティクスで堅牢なビジュアル機能と、シームレスなダウンストリームアプリケーションのための整列されたテキスト埋め込みを学ぶことを目指している。
ゼロショット画像分類、線形探索、k-NN分類、少数ショット分類、画像テキスト検索、オブジェクトカウントなど、さまざまなダウンストリームタスクに適用できる。
- 参考スコア(独自算出の注目度): 7.4364860619974795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose foundation models have become increasingly important in the
field of artificial intelligence. While self-supervised learning (SSL) and
Masked Image Modeling (MIM) have led to promising results in building such
foundation models for remote sensing, these models primarily learn low-level
features, require annotated data for fine-tuning, and not applicable for
retrieval and zero-shot applications due to the lack of language understanding.
In response to these limitations, we propose RemoteCLIP, the first
vision-language foundation model for remote sensing that aims to learn robust
visual features with rich semantics, as well as aligned text embeddings for
seamless downstream application. To address the scarcity of pre-training data,
we leverage data scaling, converting heterogeneous annotations based on
Box-to-Caption (B2C) and Mask-to-Box (M2B) conversion, and further
incorporating UAV imagery, resulting a 12xlarger pretraining dataset.
RemoteCLIP can be applied to a variety of downstream tasks, including zero-shot
image classification, linear probing, k-NN classification, few-shot
classification, image-text retrieval, and object counting. Evaluations on 16
datasets, including a newly introduced RemoteCount benchmark to test the object
counting ability, show that RemoteCLIP consistently outperforms baseline
foundation models across different model scales. Impressively, RemoteCLIP
outperform previous SoTA by 9.14% mean recall on RSICD dataset and by 8.92% on
RSICD dataset. For zero-shot classification, our RemoteCLIP outperform CLIP
baseline by up to 6.39% average accuracy on 12 downstream datasets.
- Abstract(参考訳): 汎用基礎モデルは人工知能の分野でますます重要になっている。
自己教師付き学習 (SSL) と Masked Image Modeling (MIM) は、リモートセンシングのための基礎モデルを構築する上で有望な結果をもたらしたが、これらのモデルは、主に低レベルの特徴を学習し、微調整のために注釈付きデータを必要とし、言語理解の欠如のために検索やゼロショットアプリケーションには適用できない。
これらの制約に対応するために,我々は,リモートセンシングのための最初の視覚言語基盤モデルであるremoteclipを提案する。
事前学習データの不足に対処するため、データスケーリングを活用し、Box-to-Caption(B2C)とMask-to-Box(M2B)の変換に基づく異種アノテーションを変換し、さらにUAVイメージを取り入れ、12倍の事前学習データセットを生成する。
リモートCLIPは、ゼロショット画像分類、線形探索、k-NN分類、少数ショット分類、画像テキスト検索、オブジェクトカウントなど、さまざまな下流タスクに適用できる。
オブジェクトカウント能力をテストするために新たに導入されたRemoteCountベンチマークを含む16のデータセットの評価によると、RemoteCLIPは、さまざまなモデルスケールでベースライン基盤モデルを一貫して上回っている。
驚くべきことに、RemoteCLIPは以前のSoTAを9.14%上回り、RSICDデータセットでは8.92%上回った。
ゼロショット分類では、RemoteCLIPは12の下流データセットでCLIPベースラインを最大6.39%上回っている。
関連論文リスト
- ECoDepth: Effective Conditioning of Diffusion Models for Monocular Depth Estimation [5.179738379203527]
パララックスの手がかりがない場合、学習に基づく単一画像深度推定モデルは、画像のシェーディングと文脈的手がかりに大きく依存する。
このようなモデルを、キャプチャが難しい大規模で多様なデータセットでトレーニングする必要がある。
CLIPのようなトレーニング済みの基礎モデルからの埋め込みを使用することで、いくつかのアプリケーションにおけるゼロショット転送が改善される。
論文 参考訳(メタデータ) (2024-03-27T17:53:30Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free
Domain Adaptation [20.57370550156505]
ReCLIPは、ヴィジュアル言語モデルのための、ソースフリーなドメイン適応手法である。
ReCLIPは、22の画像分類ベンチマークにおいて、CLIPの平均エラー率を30.17%から25.06%に下げることを示した。
論文 参考訳(メタデータ) (2023-08-04T18:11:40Z) - Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models [7.452422412106768]
リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。
自動プロンプト生成プロセスを使用することで、広範なアノテーションへの依存を克服する。
我々は,Text2SegがバニラSAMモデルと比較してゼロショット予測性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-04-20T18:39:41Z) - Preventing Zero-Shot Transfer Degradation in Continual Learning of
Vision-Language Models [13.340759455910721]
本稿では,視覚言語モデルの連続学習におけるゼロショット転送劣化を防止する新しい手法を提案する。
本手法は,従来のクラス増分学習環境において,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-12T10:28:07Z) - Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:12:26Z) - ReCLIP: A Strong Zero-Shot Baseline for Referring Expression
Comprehension [114.85628613911713]
大規模事前学習モデルは領域間の画像分類に有用である。
ReCLIPは単純だが強力なゼロショットベースラインであり、ReCのための最先端の大規模モデルであるCLIPを再利用する。
論文 参考訳(メタデータ) (2022-04-12T17:55:38Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。