論文の概要: CerraData-4MM: A multimodal benchmark dataset on Cerrado for land use and land cover classification
- arxiv url: http://arxiv.org/abs/2502.00083v1
- Date: Fri, 31 Jan 2025 15:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:04.792176
- Title: CerraData-4MM: A multimodal benchmark dataset on Cerrado for land use and land cover classification
- Title(参考訳): CerraData-4MM:土地利用と土地被覆分類のためのCerradoのマルチモーダルベンチマークデータセット
- Authors: Mateus de Souza Miranda, Ronny Hänsch, Valdivino Alexandre de Santiago Júnior, Thales Sehn Körting, Erison Carlos dos Santos Monteiro,
- Abstract要約: CerraData-4MMは、Sentinel-1 Synthetic Aperture Radar (SAR)とSentinel-2 MultiSpectral Imagery (MSI)を組み合わせたデータセットである。
データセットには、それぞれ7クラスと14クラスからなる2つの階層的な分類レベルが含まれており、多様なBico do Papagaio eco Regionに焦点を当てている。
我々は、標準的なU-Netとより洗練されたビジョントランスフォーマー(ViT)モデルを評価することにより、高度なセマンティックセグメンテーション手法をベンチマークするCerraData-4MMの能力を強調した。
- 参考スコア(独自算出の注目度): 5.503948543987285
- License:
- Abstract: The Cerrado faces increasing environmental pressures, necessitating accurate land use and land cover (LULC) mapping despite challenges such as class imbalance and visually similar categories. To address this, we present CerraData-4MM, a multimodal dataset combining Sentinel-1 Synthetic Aperture Radar (SAR) and Sentinel-2 MultiSpectral Imagery (MSI) with 10m spatial resolution. The dataset includes two hierarchical classification levels with 7 and 14 classes, respectively, focusing on the diverse Bico do Papagaio ecoregion. We highlight CerraData-4MM's capacity to benchmark advanced semantic segmentation techniques by evaluating a standard U-Net and a more sophisticated Vision Transformer (ViT) model. The ViT achieves superior performance in multimodal scenarios, with the highest macro F1-score of 57.60% and a mean Intersection over Union (mIoU) of 49.05% at the first hierarchical level. Both models struggle with minority classes, particularly at the second hierarchical level, where U-Net's performance drops to an F1-score of 18.16%. Class balancing improves representation for underrepresented classes but reduces overall accuracy, underscoring the trade-off in weighted training. CerraData-4MM offers a challenging benchmark for advancing deep learning models to handle class imbalance and multimodal data fusion. Code, trained models, and data are publicly available at https://github.com/ai4luc/CerraData-4MM.
- Abstract(参考訳): Cerradoは環境圧力の増大に直面し、クラス不均衡や視覚的に類似したカテゴリーの課題にもかかわらず、正確な土地利用と土地被覆(LULC)マッピングを必要としている。
本研究では,SAR(Sentinel-1 Synthetic Aperture Radar)とMSI(Sentinel-2 MultiSpectral Imagery)を組み合わせたマルチモーダルデータセットCerraData-4MMを提案する。
データセットには、それぞれ7クラスと14クラスからなる2つの階層的な分類レベルが含まれており、多様なBico do Papagaio eco Regionに焦点を当てている。
我々は、標準的なU-Netとより洗練されたビジョントランスフォーマー(ViT)モデルを評価することにより、高度なセマンティックセグメンテーション手法をベンチマークするCerraData-4MMの能力を強調した。
ViTはマルチモーダルシナリオにおいて、最高マクロF1スコアは57.60%、平均インターセクションは49.05%である。
どちらのモデルもマイノリティクラス、特に第2階層レベルではU-Netのパフォーマンスが18.16%に低下する。
クラスバランシングは、表現不足のクラスに対する表現を改善するが、全体的な精度を低下させ、重み付けトレーニングにおけるトレードオフを強調させる。
CerraData-4MMは、クラス不均衡とマルチモーダルデータ融合を処理するために、ディープラーニングモデルを進化させるための挑戦的なベンチマークを提供する。
コード、トレーニングされたモデル、データはhttps://github.com/ai4luc/CerraData-4MMで公開されている。
関連論文リスト
- Benchmarking Large Language Models for Image Classification of Marine Mammals [4.274291455715579]
我々は65種類の海洋哺乳類の1,423種類の画像を用いたベンチマークデータセットを構築した。
各動物は、種レベルから中レベル、グループレベルまで、それぞれ異なるレベルに分類される。
我々はこれらの海洋哺乳動物を分類するためのいくつかのアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-22T01:49:49Z) - Evaluating Large Language Models on Spatial Tasks: A Multi-Task Benchmarking Study [4.80612909282198]
本研究では,空間的タスクにおけるいくつかの高度なモデルの性能を探索し,比較するために,新しいマルチタスク空間評価データセットを提案する。
データセットには、空間的理解や単純なルート計画など、12の異なるタスクタイプが含まれており、それぞれが検証され、正確な答えを持っている。
論文 参考訳(メタデータ) (2024-08-26T17:25:16Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - ShareGPT4V: Improving Large Multi-Modal Models with Better Captions [81.95879920888716]
120万の記述キャプションを含むデータセットであるShareGPT4Vを紹介する。
このデータセットは、多様性と情報内容の既存のデータセットを超え、世界的知識、オブジェクトの特性、空間的関係、美的評価をカバーしている。
さらに,ShareGPT4Vデータを事前学習とSFTフェーズの両方に組み込んで,優れたLMMであるShareGPT4V-7Bを得る。
論文 参考訳(メタデータ) (2023-11-21T18:58:11Z) - CROMA: Remote Sensing Representations with Contrastive Radar-Optical
Masked Autoencoders [2.7624021966289605]
リモートセンシングは、広範にラベル付き、空間的に整列したマルチモーダルデータを提供する。
コントラストと再構成を組み合わせたフレームワークであるCROMAを,リッチな一様・多様表現の学習のために提案する。
論文 参考訳(メタデータ) (2023-11-01T15:07:27Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z) - Efficient deep learning models for land cover image classification [0.29748898344267777]
土地利用土地被覆(LULC)画像分類のためのBigEarthNetデータセットを用いて実験を行った。
コンボリューションニューラルネットワーク、マルチ層パーセプトロン、ビジュアルトランスフォーマー、効率的なネットワーク、ワイド残留ネットワーク(WRN)など、さまざまな最先端モデルをベンチマークする。
提案する軽量モデルは、訓練可能なパラメータが桁違いに小さく、平均的なFスコア分類精度が19のLULCクラスすべてに対して4.5%向上し、ベースラインとして使用するResNet50の2倍高速に訓練される。
論文 参考訳(メタデータ) (2021-11-18T00:03:14Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Learning to Fairly Classify the Quality of Wireless Links [0.5352699766206808]
本稿では,高性能な木質リンク品質分類器を提案し,マイノリティクラスを公平に分類する。
選択された不均衡データセット上で,木モデルとMLP非線形モデルと2つの線形モデル,すなわちロジスティック回帰(LR)とSVMを比較した。
本研究は,(1)非線形モデルが一般に線形モデルよりも若干優れていること,2)提案する非線形木ベースモデルが,f1,トレーニング時間,公平性を考慮した最高のパフォーマンストレードオフをもたらすこと,3)正確性のみに基づく単一メトリクス集約評価が貧弱であることを示す。
論文 参考訳(メタデータ) (2021-02-23T12:23:27Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。