論文の概要: BigEarthNet-MM: A Large Scale Multi-Modal Multi-Label Benchmark Archive
for Remote Sensing Image Classification and Retrieval
- arxiv url: http://arxiv.org/abs/2105.07921v1
- Date: Mon, 17 May 2021 15:00:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 20:11:49.277572
- Title: BigEarthNet-MM: A Large Scale Multi-Modal Multi-Label Benchmark Archive
for Remote Sensing Image Classification and Retrieval
- Title(参考訳): BigEarthNet-MM:リモートセンシング画像分類と検索のための大規模マルチモーダルマルチラベルベンチマークアーカイブ
- Authors: Gencer Sumbul, Arne de Wall, Tristan Kreuziger, Filipe Marcelino, Hugo
Costa, Pedro Benevides, M\'ario Caetano, Beg\"um Demir, Volker Markl
- Abstract要約: 本稿では,590,326組のSentinel-1とSentinel-2の画像パッチからなるBigEarthNet(BigEarthNet-MM)ベンチマークアーカイブを提案する。
それぞれのパッチには2018年のcorine land cover(clc)マップで提供される複数のラベルがアノテートされている。
- 参考スコア(独自算出の注目度): 8.079043927935862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the multi-modal BigEarthNet (BigEarthNet-MM) benchmark
archive made up of 590,326 pairs of Sentinel-1 and Sentinel-2 image patches to
support the deep learning (DL) studies in multi-modal multi-label remote
sensing (RS) image retrieval and classification. Each pair of patches in
BigEarthNet-MM is annotated with multi-labels provided by the CORINE Land Cover
(CLC) map of 2018 based on its thematically most detailed Level-3 class
nomenclature. Our initial research demonstrates that some CLC classes are
challenging to be accurately described by only considering (single-date)
BigEarthNet-MM images. In this paper, we also introduce an alternative
class-nomenclature as an evolution of the original CLC labels to address this
problem. This is achieved by interpreting and arranging the CLC Level-3
nomenclature based on the properties of BigEarthNet-MM images in a new
nomenclature of 19 classes. In our experiments, we show the potential of
BigEarthNet-MM for multi-modal multi-label image retrieval and classification
problems by considering several state-of-the-art DL models. We also demonstrate
that the DL models trained from scratch on BigEarthNet-MM outperform those
pre-trained on ImageNet, especially in relation to some complex classes,
including agriculture and other vegetated and natural environments. We make all
the data and the DL models publicly available at https://bigearth.net, offering
an important resource to support studies on multi-modal image scene
classification and retrieval problems in RS.
- Abstract(参考訳): 本稿では,590,326組のSentinel-1とSentinel-2の画像パッチからなるBigEarthNet(BigEarthNet-MM)ベンチマークアーカイブを,マルチモーダルマルチラベルリモートセンシング(RS)画像検索と分類における深層学習(DL)研究を支援するために提案する。
BigEarthNet-MMの各パッチには、2018年のCORINE Land Cover (CLC)マップによるマルチラベルが注釈付けされている。
我々の最初の研究は、CLCのクラスは、(単一の)BigEarthNet-MM画像のみを考慮し、正確に記述することが難しいことを実証した。
本稿では,この問題に対処するために,clcラベルの進化として代替のクラス命名法を提案する。
これは、19のクラスからなる新しい命名法でBigEarthNet-MM画像の特性に基づいて、CLC Level-3命名法を解釈してアレンジすることで達成される。
本研究では,複数の最先端dlモデルを考慮したマルチモーダル画像検索と分類問題に対するbigearthnet-mmの可能性を示す。
また,BigEarthNet-MMをスクラッチからトレーニングしたDLモデルは,特に農業などの植物や自然環境を含む複雑なクラスにおいて,ImageNetで事前学習したモデルよりも優れていることを示した。
我々は全てのデータとDLモデルをhttps://bigearth.netで公開し、マルチモーダル画像シーンの分類と検索問題の研究を支援する重要なリソースを提供する。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。
我々は近年,分類学を構築し,最も顕著な論文をレビューしている。
我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文 参考訳(メタデータ) (2024-08-13T07:27:02Z) - reBEN: Refined BigEarthNet Dataset for Remote Sensing Image Analysis [9.308800461569561]
BigEarthNetは、リモートセンシング画像解析のためのディープラーニング(DL)研究を支援するために構築された、大規模でマルチモーダルなリモートセンシングデータセットである。
reBENデータセットは、Sentinel-1とSentinel-2の画像パッチの549,488対で構成されている。
論文 参考訳(メタデータ) (2024-07-04T05:48:28Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - A Capsule Network for Hierarchical Multi-Label Image Classification [2.507647327384289]
階層的な多ラベル分類は、階層構造や分類に基づくより小さな分類に分類された多クラス画像分類問題に適用される。
階層分類のためのマルチラベルカプセルネットワーク(ML-CapsNet)を提案する。
論文 参考訳(メタデータ) (2022-09-13T04:17:08Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Few-Shot Learning for Image Classification of Common Flora [0.0]
MAML(Model-Agnostic Meta Learning)を用いた画像分類のためのメタラーニング分野の最先端の研究と、さまざまな最先端のトランスファーラーニングウェイトとアーキテクチャをテストした結果を紹介します。
その結果、データセットが十分に大きい場合、両方のプラクティスが十分なパフォーマンスを提供しますが、十分なパフォーマンスを維持するためにデータスパーシャビリティが導入されると、どちらも苦労しています。
論文 参考訳(メタデータ) (2021-05-07T03:54:51Z) - MLRSNet: A Multi-label High Spatial Resolution Remote Sensing Dataset
for Semantic Scene Understanding [6.880271407391406]
深層学習を用いたセマンティックシーン理解のためのマルチラベル高空間分解能リモートセンシングデータセットMLRSNetを構築した。
MLRSNetには46のシーンカテゴリに109,161のサンプルが含まれており、各イメージには60の事前定義されたラベルの少なくとも1つが含まれている。
実験の結果、MLRSNetは将来の研究において重要なベンチマークであることが示された。
論文 参考訳(メタデータ) (2020-10-01T08:03:47Z) - Many-Class Few-Shot Learning on Multi-Granularity Class Hierarchy [57.68486382473194]
我々は,教師付き学習とメタ学習の両方において,MCFS(Multi-class few-shot)問題について検討した。
本稿では,クラス階層を事前知識として活用し,粗大な分類器を訓練する。
モデル「メモリ拡張階層分類ネットワーク(MahiNet)」は、各粗いクラスが複数の細かなクラスをカバーできる粗い粒度分類を行う。
論文 参考訳(メタデータ) (2020-06-28T01:11:34Z) - BigEarthNet Dataset with A New Class-Nomenclature for Remote Sensing
Image Understanding [1.930511407898565]
本稿では,大規模なSentinel-2マルチスペクトル画像データセットであるBigEarthNetについて述べる。
BigEarthNetは、2018年のCORINE Land Cover (CLC)マップが提供する複数ラベルの注釈付き590,326の画像パッチで構成されている。
本稿では,センチネル2画像の複雑な空間的およびスペクトル的情報内容について,DLモデルによるより優れた学習と記述を可能にするクラス命名法を提案する。
論文 参考訳(メタデータ) (2020-01-17T15:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。