論文の概要: MEET: A Million-Scale Dataset for Fine-Grained Geospatial Scene Classification with Zoom-Free Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2503.11219v1
- Date: Fri, 14 Mar 2025 09:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:00.552996
- Title: MEET: A Million-Scale Dataset for Fine-Grained Geospatial Scene Classification with Zoom-Free Remote Sensing Imagery
- Title(参考訳): MEET:ズームフリーリモートセンシング画像を用いた微細地形分類のための100万スケールデータセット
- Authors: Yansheng Li, Yuning Wu, Gong Cheng, Chao Tao, Bo Dang, Yu Wang, Jiahao Zhang, Chuge Zhang, Yiting Liu, Xu Tang, Jiayi Ma, Yongjun Zhang,
- Abstract要約: ミリスケールフィンエグルーフ地理空間分類データ(MEET)について紹介する。
MEETには1030万以上のズームなしリモートセンシングシーンサンプルが含まれており、手動で80の細かいカテゴリに注釈付けされている。
シーン・イン・シーン分類の課題に挑戦するために、コンテキスト・アウェア・トランスフォーマー(CAT)を提案する。
- 参考スコア(独自算出の注目度): 37.588938028708405
- License:
- Abstract: Accurate fine-grained geospatial scene classification using remote sensing imagery is essential for a wide range of applications. However, existing approaches often rely on manually zooming remote sensing images at different scales to create typical scene samples. This approach fails to adequately support the fixed-resolution image interpretation requirements in real-world scenarios. To address this limitation, we introduce the Million-scale finE-grained geospatial scEne classification dataseT (MEET), which contains over 1.03 million zoom-free remote sensing scene samples, manually annotated into 80 fine-grained categories. In MEET, each scene sample follows a scene-inscene layout, where the central scene serves as the reference, and auxiliary scenes provide crucial spatial context for finegrained classification. Moreover, to tackle the emerging challenge of scene-in-scene classification, we present the Context-Aware Transformer (CAT), a model specifically designed for this task, which adaptively fuses spatial context to accurately classify the scene samples. CAT adaptively fuses spatial context to accurately classify the scene samples by learning attentional features that capture the relationships between the center and auxiliary scenes. Based on MEET, we establish a comprehensive benchmark for fine-grained geospatial scene classification, evaluating CAT against 11 competitive baselines. The results demonstrate that CAT significantly outperforms these baselines, achieving a 1.88% higher balanced accuracy (BA) with the Swin-Large backbone, and a notable 7.87% improvement with the Swin-Huge backbone. Further experiments validate the effectiveness of each module in CAT and show the practical applicability of CAT in the urban functional zone mapping. The source code and dataset will be publicly available at https://jerrywyn.github.io/project/MEET.html.
- Abstract(参考訳): リモートセンシング画像を用いた精密な地理空間シーン分類は,幅広い用途に不可欠である。
しかし、既存のアプローチはしばしば、典型的なシーンサンプルを作成するために、異なるスケールでリモートセンシング画像を手動でズームすることに依存している。
このアプローチは、現実のシナリオにおいて、固定解像度の画像解釈要求を適切にサポートしない。
この制限に対処するために,100,000万以上のズームフリーリモートセンシングシーンサンプルを手作業で80の細粒度カテゴリに注釈付けした,Mario-scale finE-fine geospatial scEne classification dataseT (MEET)を導入する。
MEETでは、各シーンのサンプルはシーン内レイアウトに従い、中央シーンが参照として機能し、補助シーンはきめ細かい分類のために重要な空間コンテキストを提供する。
さらに,シーン・イン・シーンの分類という課題に対処するために,この課題に特化して設計されたコンテキスト・アウェア・トランスフォーマー(CAT)を提案する。
CATは空間的コンテキストを融合させ、中心と補助シーンの関係を捉えた注意特徴を学習することで、シーンサンプルを正確に分類する。
MEETをベースとした詳細な地理空間シーン分類のための総合的ベンチマークを構築し,CATを11の競争ベースラインに対して評価した。
その結果、CATはこれらのベースラインを大幅に上回り、Swin-Largeのバックボーンと1.88%高いバランス精度(BA)を実現し、Swin-Hugeのバックボーンでは7.87%改善した。
さらに,CATにおける各モジュールの有効性を検証し,都市機能ゾーンマッピングにおけるCATの適用性を示す。
ソースコードとデータセットはhttps://jerrywyn.github.io/project/MEET.htmlで公開されている。
関連論文リスト
- Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - A Comprehensive Study of Image Classification Model Sensitivity to
Foregrounds, Backgrounds, and Visual Attributes [58.633364000258645]
このデータセットをRIVAL10と呼びます。
本研究では,前景,背景,属性の騒音劣化に対する幅広いモデルの感度を評価する。
本稿では,多種多様な最先端アーキテクチャ (ResNets, Transformers) とトレーニング手順 (CLIP, SimCLR, DeiT, Adversarial Training) について考察する。
論文 参考訳(メタデータ) (2022-01-26T06:31:28Z) - Aerial Scene Parsing: From Tile-level Scene Classification to Pixel-wise
Semantic Labeling [48.30060717413166]
航空画像が与えられた場合、空中シーン解析(ASP)は、画像の各ピクセルにセマンティックラベルを割り当てることで、画像内容の意味構造を解釈する。
本稿では,Mario-AIDと呼ばれる100万件の航空画像を含む大規模シーン分類データセットを提案する。
また,古典的畳み込みニューラルネットワーク(CNN)を用いたベンチマーク実験を行い,ピクセルワイドなセマンティックラベリングを実現する。
論文 参考訳(メタデータ) (2022-01-06T07:40:47Z) - SGMNet: Scene Graph Matching Network for Few-Shot Remote Sensing Scene
Classification [14.016637774748677]
Few-Shot Remote Sensing Scene Classification (FSRSSC) は,新しいシーンクラスを少数の例で認識することを目的とした重要な課題である。
SGMNetと呼ばれるFSRSSCのための新しいシーングラフマッチングに基づくメタラーニングフレームワークを提案する。
UCMerced LandUse, WHU19, AID, NWPU-RESISC45データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-10-09T07:43:40Z) - Free Lunch for Co-Saliency Detection: Context Adjustment [14.688461235328306]
市販のサリエンシ検出データセットからの画像を利用して新しいサンプルを合成する「コストフリー」グループカットペースト(GCP)手順を提案する。
我々は、Context Adjustment Trainingと呼ばれる新しいデータセットを収集します。データセットの2つのバリエーション、すなわち、CATとCAT+は、それぞれ16,750と33,500の画像で構成されています。
論文 参考訳(メタデータ) (2021-08-04T14:51:37Z) - Detecting Cattle and Elk in the Wild from Space [6.810164473908359]
衛星画像中の大きな黄体を位置決めし、数えることが生態学研究を支える重要な課題である。
画像中の動物数(カウント)を同時に推定し,その位置をピクセルレベルで(ローカライズ)予測するベースライン手法であるCowNetを提案する。
本稿では,カリフォルニア州ポイント・レーズ海浜の大規模景観における結果モデルの時間的一般化を特に検証する。
論文 参考訳(メタデータ) (2021-06-29T14:35:23Z) - CAT: Cross-Attention Transformer for One-Shot Object Detection [32.50786038822194]
ワンショットオブジェクト検出は、セマンティックな類似度の比較を通じて、ターゲットイメージ内のそのクラスのすべてのインスタンスを検出することを目的とする。
汎用クロスアテンション変換器(CAT)モジュールで、ワンショットオブジェクト検出における正確かつ効率的な意味的類似度比較を行う。
論文 参考訳(メタデータ) (2021-04-30T13:18:53Z) - iFAN: Image-Instance Full Alignment Networks for Adaptive Object
Detection [48.83883375118966]
iFANは、イメージレベルとインスタンスレベルの両方で、機能の分散を正確に調整することを目的としている。
ソースのみのベースライン上で10%以上のAPで、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-03-09T13:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。