論文の概要: MultiScene: A Large-scale Dataset and Benchmark for Multi-scene
Recognition in Single Aerial Images
- arxiv url: http://arxiv.org/abs/2104.02846v1
- Date: Wed, 7 Apr 2021 01:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:53:37.667494
- Title: MultiScene: A Large-scale Dataset and Benchmark for Multi-scene
Recognition in Single Aerial Images
- Title(参考訳): MultiScene: 単一空中画像における大規模データセットとマルチシーン認識のためのベンチマーク
- Authors: Yuansheng Hua, Lichao Mou, Pu Jin, Xiao Xiang Zhu
- Abstract要約: 我々は10万の高解像度空中画像からなるMultiSceneと呼ばれる大規模なデータセットを作成します。
我々は視覚的に14,000枚の画像を検査し、そのシーンラベルを補正し、MultiScene-Cleanというクリーンな注釈付き画像のサブセットを生成する。
我々は,MultiScene-CleanとMultiSceneの2つのベースラインモデルを用いて実験を行い,単一画像におけるマルチシーン認識のベンチマークを行う。
- 参考スコア(独自算出の注目度): 17.797726722637634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial scene recognition is a fundamental research problem in interpreting
high-resolution aerial imagery. Over the past few years, most studies focus on
classifying an image into one scene category, while in real-world scenarios, it
is more often that a single image contains multiple scenes. Therefore, in this
paper, we investigate a more practical yet underexplored task -- multi-scene
recognition in single images. To this end, we create a large-scale dataset,
called MultiScene, composed of 100,000 unconstrained high-resolution aerial
images. Considering that manually labeling such images is extremely arduous, we
resort to low-cost annotations from crowdsourcing platforms, e.g.,
OpenStreetMap (OSM). However, OSM data might suffer from incompleteness and
incorrectness, which introduce noise into image labels. To address this issue,
we visually inspect 14,000 images and correct their scene labels, yielding a
subset of cleanly-annotated images, named MultiScene-Clean. With it, we can
develop and evaluate deep networks for multi-scene recognition using clean
data. Moreover, we provide crowdsourced annotations of all images for the
purpose of studying network learning with noisy labels. We conduct experiments
with extensive baseline models on both MultiScene-Clean and MultiScene to offer
benchmarks for multi-scene recognition in single images and learning from noisy
labels for this task, respectively. To facilitate progress, we will make our
dataset and pre-trained models available.
- Abstract(参考訳): 航空シーン認識は高解像度空中画像の解釈における基本的な研究課題である。
過去数年間、ほとんどの研究は画像を1つのシーンカテゴリに分類することに焦点を当てているが、現実のシナリオでは、1つの画像が複数のシーンを含むことが多い。
そこで本研究では,より実用的で未熟な課題である単一画像におけるマルチシーン認識について検討する。
この目的のために、我々は10万の制約のない高精細空中画像からなる、multisceneと呼ばれる大規模データセットを作成します。
このようなイメージを手動でラベル付けするのは極めて困難なことを考えると、クラウドソーシングプラットフォーム(例えばOpenStreetMap (OSM))からの低コストのアノテーションを利用する。
しかし、osmデータは、画像ラベルにノイズをもたらす不完全さと不正確さに苦しむ可能性がある。
この問題に対処するため、14,000枚の画像を視覚的に検査し、それらのシーンラベルを補正し、MultiScene-Cleanというクリーンな注釈付き画像のサブセットを生成する。
これにより、クリーンデータを用いたマルチシーン認識のためのディープネットワークの開発と評価が可能となる。
さらに,ノイズラベルを用いたネットワーク学習研究のために,全画像のクラウドソースアノテーションを提供する。
我々は,MultiScene-CleanとMultiSceneの2つのベースラインモデルを用いて実験を行い,単一画像におけるマルチシーン認識のためのベンチマークと,このタスクのための雑音ラベルからの学習を行う。
進歩を促進するために、データセットと事前トレーニングされたモデルを利用可能にします。
関連論文リスト
- Perceptual Artifacts Localization for Image Synthesis Tasks [59.638307505334076]
我々は10,168個の画像からなる新しいデータセットを導入し,それぞれに知覚的アーティファクトラベルを付加した。
提案したデータセットに基づいてトレーニングされたセグメンテーションモデルは、さまざまなタスクにまたがるアーティファクトを効果的にローカライズする。
生成した画像の知覚的アーティファクトをシームレスに修正する,革新的なズームイン・インペインティングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-09T10:22:08Z) - Saliency Guided Contrastive Learning on Scene Images [71.07412958621052]
我々は、学習中のモデルの出力から導かれるサリエンシマップを活用し、差別的な領域を強調し、対照的な学習全体をガイドする。
提案手法は,画像上の自己教師学習の性能を,画像の線形評価において+1.1,+4.3,+2.2の精度で向上させる。
論文 参考訳(メタデータ) (2023-02-22T15:54:07Z) - Self-attention on Multi-Shifted Windows for Scene Segmentation [14.47974086177051]
マルチスケール画像ウィンドウにおける自己注意の有効利用について検討し,視覚的特徴を学習する。
本稿では,これらの特徴マップを集約して,高密度予測のための特徴表現をデコードする3つの戦略を提案する。
我々のモデルは、4つの公開シーンセグメンテーションデータセットで非常に有望な性能を達成する。
論文 参考訳(メタデータ) (2022-07-10T07:36:36Z) - Facing the Void: Overcoming Missing Data in Multi-View Imagery [0.783788180051711]
本稿では,この問題に頑健な多視点画像分類のための新しい手法を提案する。
提案手法は,最先端の深層学習とメートル法学習に基づいて,他のアプリケーションやドメインに容易に適応し,活用することができる。
その結果,提案アルゴリズムは,最先端手法と比較して,多視点画像分類精度の向上を図っている。
論文 参考訳(メタデータ) (2022-05-21T13:21:27Z) - Aerial Scene Parsing: From Tile-level Scene Classification to Pixel-wise
Semantic Labeling [48.30060717413166]
航空画像が与えられた場合、空中シーン解析(ASP)は、画像の各ピクセルにセマンティックラベルを割り当てることで、画像内容の意味構造を解釈する。
本稿では,Mario-AIDと呼ばれる100万件の航空画像を含む大規模シーン分類データセットを提案する。
また,古典的畳み込みニューラルネットワーク(CNN)を用いたベンチマーク実験を行い,ピクセルワイドなセマンティックラベリングを実現する。
論文 参考訳(メタデータ) (2022-01-06T07:40:47Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Semantic Diversity Learning for Zero-Shot Multi-label Classification [14.480713752871523]
本研究では,マルチラベルゼロショット学習のためのエンドツーエンドモデルトレーニングを提案する。
本研究では,主埋め込みベクトルを持つ埋め込み行列を用いて,調整された損失関数を用いて訓練する。
さらに, 学習中, 組込み行列の多様性を促進するために, 高い意味的多様性を示す損失関数画像サンプルの重み付けを提案する。
論文 参考訳(メタデータ) (2021-05-12T19:39:07Z) - Aerial Scene Understanding in The Wild: Multi-Scene Recognition via
Prototype-based Memory Networks [14.218223473363276]
複数のシーンを1つの画像で認識するためのプロトタイプベースのメモリネットワークを提案する。
提案するネットワークは,1) プロトタイプ学習モジュール,2) プロトタイプ搭載外部メモリ,3) マルチヘッド注意型メモリ検索モジュールの3つの主要コンポーネントから構成される。
航空シーン認識の進展を促進するため,我々は新しいマルチシーン空中画像(MAI)データセットを作成する。
論文 参考訳(メタデータ) (2021-04-22T17:32:14Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z) - Attention-Aware Noisy Label Learning for Image Classification [97.26664962498887]
大規模ラベル付きサンプルで学習した深層畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおいて顕著な進歩を遂げている。
大量のラベル付きビジュアルデータを取得する最も安価な方法は、Flickrのようなユーザーが提供するラベルでウェブサイトからクロールすることである。
本稿では,潜在的なラベルノイズのあるデータセットに基づいて学習したネットワークの識別能力を向上させるために,注目に敏感なラベル学習手法を提案する。
論文 参考訳(メタデータ) (2020-09-30T15:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。