Fugu-MT 論文翻訳(概要): RemoteCLIP: A Vision Language Foundation Model for Remote Sensing

論文の概要: RemoteCLIP: A Vision Language Foundation Model for Remote Sensing

arxiv url: http://arxiv.org/abs/2306.11029v3
Date: Thu, 8 Feb 2024 04:46:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 19:35:29.723098
Title: RemoteCLIP: A Vision Language Foundation Model for Remote Sensing
Title（参考訳）: RemoteCLIP:リモートセンシングのためのビジョン言語基礎モデル
Authors: Fan Liu, Delong Chen, Zhangqingyun Guan, Xiaocong Zhou, Jiale Zhu, Qiaolin Ye, Liyong Fu, Jun Zhou
Abstract要約: 遠隔センシングのための視覚言語基盤モデルであるRemoteCLIPを提案する。リッチなセマンティクスと、シームレスなダウンストリームアプリケーションのためのアライメントされたテキスト埋め込みによって、堅牢なビジュアル機能を学ぶことを目指している。リモートCLIPは、ゼロショット画像分類、線形探索、$textitk$-NN分類、少数ショット分類、画像テキスト検索、リモートセンシング画像におけるオブジェクトカウントなど、さまざまなダウンストリームタスクに適用できる。
参考スコア（独自算出の注目度）: 14.409051265944148
License: http://creativecommons.org/licenses/by/4.0/
Abstract: General-purpose foundation models have led to recent breakthroughs in artificial intelligence. In remote sensing, self-supervised learning (SSL) and Masked Image Modeling (MIM) have been adopted to build foundation models. However, these models primarily learn low-level features and require annotated data for fine-tuning. Moreover, they are inapplicable for retrieval and zero-shot applications due to the lack of language understanding. To address these limitations, we propose RemoteCLIP, the first vision-language foundation model for remote sensing that aims to learn robust visual features with rich semantics and aligned text embeddings for seamless downstream application. To address the scarcity of pre-training data, we leverage data scaling which converts heterogeneous annotations into a unified image-caption data format based on Box-to-Caption (B2C) and Mask-to-Box (M2B) conversion. By further incorporating UAV imagery, we produce a 12 $\times$ larger pretraining dataset than the combination of all available datasets. RemoteCLIP can be applied to a variety of downstream tasks, including zero-shot image classification, linear probing, $\textit{k}$-NN classification, few-shot classification, image-text retrieval, and object counting in remote sensing images. Evaluation on 16 datasets, including a newly introduced RemoteCount benchmark to test the object counting ability, shows that RemoteCLIP consistently outperforms baseline foundation models across different model scales. Impressively, RemoteCLIP beats the state-of-the-art method by 9.14% mean recall on the RSITMD dataset and 8.92% on the RSICD dataset. For zero-shot classification, our RemoteCLIP outperforms the CLIP baseline by up to 6.39% average accuracy on 12 downstream datasets. Project website: https://github.com/ChenDelong1999/RemoteCLIP
Abstract（参考訳）: 汎用的な基礎モデルは、最近の人工知能のブレークスルーに繋がった。リモートセンシングでは、基礎モデルを構築するために、自己教師付き学習(SSL)とMasked Image Modeling(MIM)が採用されている。しかし、これらのモデルは主に低レベルの特徴を学習し、微調整のために注釈付きデータを必要とする。さらに、言語理解が欠如しているため、検索やゼロショットアプリケーションにも適用できない。こうした制約に対処するため,我々はリモートセンシングのための最初のビジョン言語基盤モデルであるRemoteCLIPを提案し,シームレスな下流アプリケーションのためのリッチなセマンティクスとアライメントされたテキスト埋め込みによる堅牢な視覚特徴の学習を目指している。事前学習データの不足に対処するために、異種アノテーションをBox-to-Caption (B2C) と Mask-to-Box (M2B) の変換に基づく統合イメージキャプションデータフォーマットに変換するデータスケーリングを利用する。 UAV画像をさらに取り入れることで、利用可能なすべてのデータセットの組み合わせよりも12$\times$大きな事前トレーニングデータセットを生成します。リモートCLIPは、ゼロショット画像分類、線形プローブ、$\textit{k}$-NN分類、少数ショット分類、画像テキスト検索、リモートセンシング画像におけるオブジェクトカウントなど、さまざまなダウンストリームタスクに適用できる。オブジェクトカウント能力をテストするために新たに導入されたRemoteCountベンチマークを含む16のデータセットの評価は、RemoteCLIPがさまざまなモデルスケールでベースライン基盤モデルより一貫して優れていることを示している。驚くべきことに、RemoteCLIPはRSITMDデータセットでは9.14%、RSICDデータセットでは8.92%という最先端の手法を破っている。ゼロショット分類では、12の下流データセットの平均精度を最大6.39%向上させています。プロジェクトウェブサイト:https://github.com/ChenDelong 1999/RemoteCLIP

関連論文リスト

RemoteSAM: Towards Segment Anything for Earth Observation [29.707796048411705]
我々は、地球観測のための頑健でフレキシブルな視覚基盤モデルを開発することを目指している。多様な視覚的目標を認識し、位置を特定する能力を持つべきである。いくつかの地球観測知覚ベンチマークで新しいSoTAを確立する基盤モデルであるRemoteSAMを提案する。
論文参考訳（メタデータ） (2025-05-23T15:27:57Z)
LRSCLIP: A Vision-Language Foundation Model for Aligning Remote Sensing Image with Longer Text [14.525300627242132]
本研究は、長文処理における技術的ボトルネックと、短文情報の不足に起因する「幻覚」の問題に対処する。本稿では,新しい視覚言語基盤モデル LRSCLIP とマルチモーダルデータセット LRS2M を提案する。
論文参考訳（メタデータ） (2025-03-25T03:17:42Z)
TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
ECoDepth: Effective Conditioning of Diffusion Models for Monocular Depth Estimation [5.179738379203527]
パララックスの手がかりがない場合、学習に基づく単一画像深度推定モデルは、画像のシェーディングと文脈的手がかりに大きく依存する。このようなモデルを、キャプチャが難しい大規模で多様なデータセットでトレーニングする必要がある。 CLIPのようなトレーニング済みの基礎モデルからの埋め込みを使用することで、いくつかのアプリケーションにおけるゼロショット転送が改善される。
論文参考訳（メタデータ） (2024-03-27T17:53:30Z)
Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文参考訳（メタデータ） (2023-11-30T21:11:20Z)
VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文参考訳（メタデータ） (2023-10-11T17:49:13Z)
Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。 MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文参考訳（メタデータ） (2023-09-28T17:59:56Z)
ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free Domain Adaptation [20.57370550156505]
ReCLIPは、ヴィジュアル言語モデルのための、ソースフリーなドメイン適応手法である。 ReCLIPは、22の画像分類ベンチマークにおいて、CLIPの平均エラー率を30.17%から25.06%に下げることを示した。
論文参考訳（メタデータ） (2023-08-04T18:11:40Z)
Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models [7.452422412106768]
リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。自動プロンプト生成プロセスを使用することで、広範なアノテーションへの依存を克服する。我々は,Text2SegがバニラSAMモデルと比較してゼロショット予測性能を著しく向上することを示した。
論文参考訳（メタデータ） (2023-04-20T18:39:41Z)
Preventing Zero-Shot Transfer Degradation in Continual Learning of Vision-Language Models [13.340759455910721]
本稿では,視覚言語モデルの連続学習におけるゼロショット転送劣化を防止する新しい手法を提案する。本手法は,従来のクラス増分学習環境において,他の手法よりも優れている。
論文参考訳（メタデータ） (2023-03-12T10:28:07Z)
Prefix Conditioning Unifies Language and Label Supervision [84.11127588805138]
学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
論文参考訳（メタデータ） (2022-06-02T16:12:26Z)
ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension [114.85628613911713]
大規模事前学習モデルは領域間の画像分類に有用である。 ReCLIPは単純だが強力なゼロショットベースラインであり、ReCのための最先端の大規模モデルであるCLIPを再利用する。
論文参考訳（メタデータ） (2022-04-12T17:55:38Z)
Self-Supervised Pre-Training for Transformer-Based Person Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文参考訳（メタデータ） (2021-11-23T18:59:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。