論文の概要: SATIN: A Multi-Task Metadataset for Classifying Satellite Imagery using
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2304.11619v1
- Date: Sun, 23 Apr 2023 11:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 17:22:40.779090
- Title: SATIN: A Multi-Task Metadataset for Classifying Satellite Imagery using
Vision-Language Models
- Title(参考訳): SATIN:視覚言語モデルを用いた衛星画像分類のためのマルチタスクメタデータ
- Authors: Jonathan Roberts, Kai Han, Samuel Albanie
- Abstract要約: SATellite ImageNet(SATIN)は,既存の27のリモートセンシングデータセットから算出したメタデータセットである。
SATIN上での広帯域ビジョン言語(VL)モデルのゼロショット転送分類能力を総合的に評価する。
SATINは,評価する上で最強のベンチマークであり,分類精度は52.0%である。
- 参考スコア(独自算出の注目度): 33.814335088752046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpreting remote sensing imagery enables numerous downstream applications
ranging from land-use planning to deforestation monitoring. Robustly
classifying this data is challenging due to the Earth's geographic diversity.
While many distinct satellite and aerial image classification datasets exist,
there is yet to be a benchmark curated that suitably covers this diversity. In
this work, we introduce SATellite ImageNet (SATIN), a metadataset curated from
27 existing remotely sensed datasets, and comprehensively evaluate the
zero-shot transfer classification capabilities of a broad range of
vision-language (VL) models on SATIN. We find SATIN to be a challenging
benchmark-the strongest method we evaluate achieves a classification accuracy
of 52.0%. We provide a $\href{https://satinbenchmark.github.io}{\text{public
leaderboard}}$ to guide and track the progress of VL models in this important
domain.
- Abstract(参考訳): リモートセンシング画像の解釈は、土地利用計画から森林破壊監視まで、多くの下流アプリケーションを可能にする。
このデータのロバストな分類は、地球の地理的多様性のために難しい。
多くの異なる衛星と航空画像の分類データセットが存在するが、この多様性を適切にカバーするベンチマークはまだ確立されていない。
本研究では、既存の27のリモートセンシングデータセットから算出されたメタデータセットであるSATellite ImageNet(SATIN)を導入し、SATIN上の広範囲の視覚言語(VL)モデルのゼロショット転送分類機能を包括的に評価する。
SATINは,評価する上で最強のベンチマークであり,分類精度は52.0%である。
この重要なドメインにおけるVLモデルの進捗をガイドし追跡するために、$\href{https://satinbenchmark.github.io}{\text{public leaderboard}}$を提供する。
関連論文リスト
- VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding [41.74095171149082]
本稿では、VRSBenchと呼ばれるリモートセンシング画像理解のためのVersatile視覚言語ベンチマークを提案する。
このベンチマークは29,614枚の画像と29,614個の人間認証された詳細なキャプション、52,472個のオブジェクト参照、123,221個の質問応答ペアで構成されている。
さらに,画像キャプション,視覚的グラウンド,視覚的質問応答という3つの視覚言語課題に対して,このベンチマークの最先端モデルについて検討した。
論文 参考訳(メタデータ) (2024-06-18T08:15:21Z) - FRACTAL: An Ultra-Large-Scale Aerial Lidar Dataset for 3D Semantic Segmentation of Diverse Landscapes [0.0]
7つのセマンティッククラスのための高品質なラベル付き10万個の高密度点雲からなる超大規模空中Lidarデータセットを提案する。
データセットのデータ収集,アノテーション,キュレーションプロセスについて述べる。
アート3Dポイントクラウド分類モデルを用いて,ベースラインのセマンティックセマンティックセマンティクス結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T19:37:22Z) - FlightScope: A Deep Comprehensive Review of Aircraft Detection Algorithms in Satellite Imagery [2.9687381456164004]
本稿では,衛星画像中の航空機を識別するタスク用にカスタマイズされた,高度な物体検出アルゴリズム群を批判的に評価し,比較する。
この研究は、YOLOバージョン5と8、より高速なRCNN、CenterNet、RetinaNet、RTMDet、DETRを含む一連の方法論を含む。
YOLOv5は空中物体検出のための堅牢なソリューションとして登場し、平均的精度、リコール、ユニオンのスコアに対するインターセクションによってその重要性を裏付けている。
論文 参考訳(メタデータ) (2024-04-03T17:24:27Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - SkyScript: A Large and Semantically Diverse Vision-Language Dataset for
Remote Sensing [14.79627534702196]
我々は、29Kの異なるセマンティックタグを含む260万の画像テキストペアからなる、リモートセンシング画像のための視覚言語データセットを構築した。
このデータセット上で連続的な事前学習を行うことで、ゼロショットシーン分類において平均精度が6.2%のベースラインモデルを超えるVLMが得られる。
また、オブジェクト属性の細粒度分類とクロスモーダル検索のためのゼロショット転送の能力を示す。
論文 参考訳(メタデータ) (2023-12-20T09:19:48Z) - What a MESS: Multi-Domain Evaluation of Zero-Shot Semantic Segmentation [2.7036595757881323]
セマンティック(MESS)のマルチドメイン評価のためのベンチマークを構築した。
MESSは、幅広いドメイン固有のデータセットにわたるパフォーマンスの全体的な分析を可能にする。
提案したMESSベンチマークを用いて,最近発表された8つのモデルを評価し,ゼロショット転送モデルの性能評価を行った。
論文 参考訳(メタデータ) (2023-06-27T14:47:43Z) - Large-scale Unsupervised Semantic Segmentation [163.3568726730319]
本稿では, 大規模無教師付きセマンティックセマンティックセグメンテーション (LUSS) の新たな課題を提案する。
ImageNetデータセットに基づいて、120万のトレーニング画像と40万の高品質なセマンティックセグメンテーションアノテーションを用いた画像Net-Sデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-06T15:02:11Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Visual Tracking by TridentAlign and Context Embedding [71.60159881028432]
本稿では,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。
提案トラッカーの性能は最先端トラッカーに匹敵するが,提案トラッカーはリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2020-07-14T08:00:26Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。