論文の概要: MLRSNet: A Multi-label High Spatial Resolution Remote Sensing Dataset
for Semantic Scene Understanding
- arxiv url: http://arxiv.org/abs/2010.00243v1
- Date: Thu, 1 Oct 2020 08:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 08:09:36.848079
- Title: MLRSNet: A Multi-label High Spatial Resolution Remote Sensing Dataset
for Semantic Scene Understanding
- Title(参考訳): MLRSNet:セマンティックシーン理解のための多ラベル高空間分解能リモートセンシングデータセット
- Authors: Xiaoman Qi, PanPan Zhu, Yuebin Wang, Liqiang Zhang, Junhuan Peng,
Mengfan Wu, Jialong Chen, Xudong Zhao, Ning Zang, P.Takis Mathiopoulos
- Abstract要約: 深層学習を用いたセマンティックシーン理解のためのマルチラベル高空間分解能リモートセンシングデータセットMLRSNetを構築した。
MLRSNetには46のシーンカテゴリに109,161のサンプルが含まれており、各イメージには60の事前定義されたラベルの少なくとも1つが含まれている。
実験の結果、MLRSNetは将来の研究において重要なベンチマークであることが示された。
- 参考スコア(独自算出の注目度): 6.880271407391406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To better understand scene images in the field of remote sensing, multi-label
annotation of scene images is necessary. Moreover, to enhance the performance
of deep learning models for dealing with semantic scene understanding tasks, it
is vital to train them on large-scale annotated data. However, most existing
datasets are annotated by a single label, which cannot describe the complex
remote sensing images well because scene images might have multiple land cover
classes. Few multi-label high spatial resolution remote sensing datasets have
been developed to train deep learning models for multi-label based tasks, such
as scene classification and image retrieval. To address this issue, in this
paper, we construct a multi-label high spatial resolution remote sensing
dataset named MLRSNet for semantic scene understanding with deep learning from
the overhead perspective. It is composed of high-resolution optical satellite
or aerial images. MLRSNet contains a total of 109,161 samples within 46 scene
categories, and each image has at least one of 60 predefined labels. We have
designed visual recognition tasks, including multi-label based image
classification and image retrieval, in which a wide variety of deep learning
approaches are evaluated with MLRSNet. The experimental results demonstrate
that MLRSNet is a significant benchmark for future research, and it complements
the current widely used datasets such as ImageNet, which fills gaps in
multi-label image research. Furthermore, we will continue to expand the
MLRSNet. MLRSNet and all related materials have been made publicly available at
https://data.mendeley.com/datasets/7j9bv9vwsx/2 and
https://github.com/cugbrs/MLRSNet.git.
- Abstract(参考訳): リモートセンシングの分野でのシーンイメージの理解を深めるためには,シーンイメージのマルチラベルアノテーションが必要である。
さらに,セマンティックシーン理解タスクを扱うためのディープラーニングモデルの性能を向上させるためには,大規模アノテートデータを用いた学習が不可欠である。
しかし、既存のほとんどのデータセットは単一のラベルで注釈付けされており、シーンイメージには複数のランドカバークラスがあるため、複雑なリモートセンシングイメージをうまく記述することはできない。
シーン分類や画像検索などの多ラベルタスクのための深層学習モデルを訓練するための多ラベル高解像度リモートセンシングデータセットが開発されている。
この問題に対処するため,我々はMLRSNetというマルチラベル高空間分解能リモートセンシングデータセットを構築し,オーバーヘッドの観点からの深層学習によるセマンティックシーン理解を実現する。
高解像度の光学衛星または空中画像で構成されている。
mlrsnetには46のシーンカテゴリで合計109,161のサンプルがあり、それぞれのイメージには60のラベルのうちの少なくとも1つが含まれている。
我々は,MLRSNetを用いて多ラベル画像分類と画像検索を含む視覚認識タスクを設計し,様々な深層学習手法の評価を行った。
実験の結果、MLRSNetは将来の研究において重要なベンチマークであり、マルチラベル画像研究のギャップを埋めるImageNetのような現在広く使われているデータセットを補完することが示された。
さらに、MLRSNetの拡張も続けます。
MLRSNetと関連するすべての資料がhttps://data.mendeley.com/datasets/7j9bv9vwsx/2とhttps://github.com/cugbrs/MLRSNet.gitで公開されている。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - SkyScript: A Large and Semantically Diverse Vision-Language Dataset for
Remote Sensing [14.79627534702196]
我々は、29Kの異なるセマンティックタグを含む260万の画像テキストペアからなる、リモートセンシング画像のための視覚言語データセットを構築した。
このデータセット上で連続的な事前学習を行うことで、ゼロショットシーン分類において平均精度が6.2%のベースラインモデルを超えるVLMが得られる。
また、オブジェクト属性の細粒度分類とクロスモーダル検索のためのゼロショット転送の能力を示す。
論文 参考訳(メタデータ) (2023-12-20T09:19:48Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations [89.42397034542189]
我々は,GAN(Generative Adversarial Network)を介して,大規模ラベル付きデータセットを合成する。
我々は、ImageNetで訓練されたクラス条件生成モデルBigGANの画像サンプルを、すべての1kクラスに対して、クラス毎の5つのイメージを手動でアノテートする。
我々は、追加の8k実画像のセットをラベル付けして、新しいImageNetベンチマークを作成し、様々な設定でセグメンテーション性能を評価する。
論文 参考訳(メタデータ) (2022-01-12T20:28:34Z) - Aerial Scene Parsing: From Tile-level Scene Classification to Pixel-wise
Semantic Labeling [48.30060717413166]
航空画像が与えられた場合、空中シーン解析(ASP)は、画像の各ピクセルにセマンティックラベルを割り当てることで、画像内容の意味構造を解釈する。
本稿では,Mario-AIDと呼ばれる100万件の航空画像を含む大規模シーン分類データセットを提案する。
また,古典的畳み込みニューラルネットワーク(CNN)を用いたベンチマーク実験を行い,ピクセルワイドなセマンティックラベリングを実現する。
論文 参考訳(メタデータ) (2022-01-06T07:40:47Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z) - MultiScene: A Large-scale Dataset and Benchmark for Multi-scene
Recognition in Single Aerial Images [17.797726722637634]
我々は10万の高解像度空中画像からなるMultiSceneと呼ばれる大規模なデータセットを作成します。
我々は視覚的に14,000枚の画像を検査し、そのシーンラベルを補正し、MultiScene-Cleanというクリーンな注釈付き画像のサブセットを生成する。
我々は,MultiScene-CleanとMultiSceneの2つのベースラインモデルを用いて実験を行い,単一画像におけるマルチシーン認識のベンチマークを行う。
論文 参考訳(メタデータ) (2021-04-07T01:09:12Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z) - RGB-based Semantic Segmentation Using Self-Supervised Depth Pre-Training [77.62171090230986]
本稿では,任意の意味的RGBセグメンテーション手法の事前学習に使用できる,スケーラブルで自己管理の容易な手法を提案する。
特に、我々の事前学習アプローチでは、深度センサーを用いて得られるラベルを自動生成する。
提案したHNラベルによる自己教師付き事前学習が,ImageNetの事前学習にどのように応用できるかを示す。
論文 参考訳(メタデータ) (2020-02-06T11:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。