論文の概要: Aerial Scene Parsing: From Tile-level Scene Classification to Pixel-wise
Semantic Labeling
- arxiv url: http://arxiv.org/abs/2201.01953v2
- Date: Sun, 9 Jan 2022 05:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 12:42:42.218501
- Title: Aerial Scene Parsing: From Tile-level Scene Classification to Pixel-wise
Semantic Labeling
- Title(参考訳): 空中シーン解析:タイルレベルシーン分類からピクセルワイドセマンティックラベリングへ
- Authors: Yang Long and Gui-Song Xia and Liangpei Zhang and Gong Cheng and Deren
Li
- Abstract要約: 航空画像が与えられた場合、空中シーン解析(ASP)は、画像の各ピクセルにセマンティックラベルを割り当てることで、画像内容の意味構造を解釈する。
本稿では,Mario-AIDと呼ばれる100万件の航空画像を含む大規模シーン分類データセットを提案する。
また,古典的畳み込みニューラルネットワーク(CNN)を用いたベンチマーク実験を行い,ピクセルワイドなセマンティックラベリングを実現する。
- 参考スコア(独自算出の注目度): 48.30060717413166
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Given an aerial image, aerial scene parsing (ASP) targets to interpret the
semantic structure of the image content, e.g., by assigning a semantic label to
every pixel of the image. With the popularization of data-driven methods, the
past decades have witnessed promising progress on ASP by approaching the
problem with the schemes of tile-level scene classification or
segmentation-based image analysis, when using high-resolution aerial images.
However, the former scheme often produces results with tile-wise boundaries,
while the latter one needs to handle the complex modeling process from pixels
to semantics, which often requires large-scale and well-annotated image samples
with pixel-wise semantic labels. In this paper, we address these issues in ASP,
with perspectives from tile-level scene classification to pixel-wise semantic
labeling. Specifically, we first revisit aerial image interpretation by a
literature review. We then present a large-scale scene classification dataset
that contains one million aerial images termed Million-AID. With the presented
dataset, we also report benchmarking experiments using classical convolutional
neural networks (CNNs). Finally, we perform ASP by unifying the tile-level
scene classification and object-based image analysis to achieve pixel-wise
semantic labeling. Intensive experiments show that Million-AID is a challenging
yet useful dataset, which can serve as a benchmark for evaluating newly
developed algorithms. When transferring knowledge from Million-AID, fine-tuning
CNN models pretrained on Million-AID perform consistently better than those
pretrained ImageNet for aerial scene classification. Moreover, our designed
hierarchical multi-task learning method achieves the state-of-the-art
pixel-wise classification on the challenging GID, bridging the tile-level scene
classification toward pixel-wise semantic labeling for aerial image
interpretation.
- Abstract(参考訳): 空中画像が与えられた場合、空中シーン解析(ASP)は、画像のすべてのピクセルにセマンティックラベルを割り当てることによって、画像内容の意味的構造を解釈する。
データ駆動型手法の普及に伴い、過去数十年間、高解像度空中画像を用いたタイルレベルのシーン分類やセグメンテーションに基づく画像解析の手法の問題にアプローチすることで、asp.netは有望な進歩を遂げてきた。
しかしながら、以前のスキームはタイルワイドなバウンダリで結果を生成することが多いが、後者はピクセルからセマンティクスまで複雑なモデリングプロセスを扱う必要がある。
本稿では,タイルレベルのシーン分類から画素単位のセマンティックラベリングまでの観点から,これらの課題をASP.NET で解決する。
具体的には,まず,文献レビューによる空中画像解釈を再考する。
次に,100万エイドという航空画像を含む大規模シーン分類データセットを提案する。
本稿では,従来の畳み込みニューラルネットワーク(CNN)を用いたベンチマーク実験についても報告する。
最後に,タイルレベルのシーン分類とオブジェクトベース画像解析を統合し,ピクセル単位の意味ラベリングを実現する。
集中的な実験によると、Million-AIDは難しいが有用なデータセットであり、新しく開発されたアルゴリズムを評価するためのベンチマークとして機能する。
Million-AIDから知識を伝達する際、Mario-AIDで事前訓練された微調整CNNモデルは、空中シーン分類のための事前訓練されたImageNetよりも一貫して性能が向上する。
さらに,階層型マルチタスク学習手法では,難解なgid上で最先端の画素単位の分類を実現し,航空機画像解釈のための画素単位の意味ラベリングに対してタイルレベルのシーン分類を橋渡しする。
関連論文リスト
- Learning Semantic Segmentation with Query Points Supervision on Aerial
Images [62.36946925639107]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。
提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文 参考訳(メタデータ) (2023-09-11T14:32:04Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Learning to Annotate Part Segmentation with Gradient Matching [58.100715754135685]
本稿では,事前学習したGANを用いて,高品質な画像を生成することで,半教師付き部分分割タスクに対処することに焦点を当てる。
特に、アノテータ学習を学習から学習までの問題として定式化する。
提案手法は,実画像,生成された画像,さらには解析的に描画された画像を含む,幅広いラベル付き画像からアノテータを学習可能であることを示す。
論文 参考訳(メタデータ) (2022-11-06T01:29:22Z) - A Pixel-Level Meta-Learner for Weakly Supervised Few-Shot Semantic
Segmentation [40.27705176115985]
Few-shotのセマンティックセマンティックセグメンテーションは、興味のある新しいクラスのために、地上の真実のピクセルレベルのラベルを持つ少数の画像しか利用できない学習タスクに対処する。
限られたデータとその意味ラベルから擬似画素レベルのセグメンテーションマスクを予測するメタラーニングフレームワークを提案する。
提案する学習モデルは,画素レベルのメタラーナーとみなすことができる。
論文 参考訳(メタデータ) (2021-11-02T08:28:11Z) - Maximize the Exploration of Congeneric Semantics for Weakly Supervised
Semantic Segmentation [27.155133686127474]
グラフニューラルネットワーク(P-GNN)を,同一のクラスラベルを含む異なる画像からの自己検出パッチに基づいて構築する。
PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-10-08T08:59:16Z) - Mixed Supervision Learning for Whole Slide Image Classification [88.31842052998319]
超高解像度画像のための混合監視学習フレームワークを提案する。
パッチトレーニングの段階では、このフレームワークは、粗いイメージレベルのラベルを使用して、自己教師付き学習を洗練することができる。
画素レベルの偽陽性と偽陰性を抑制するための包括的な戦略が提案されている。
論文 参考訳(メタデータ) (2021-07-02T09:46:06Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Deep Active Learning for Joint Classification & Segmentation with Weak
Annotator [22.271760669551817]
クラスアクティベーションマップ(CAM)のようなCNNの可視化と解釈手法は、一般的に、クラス予測に関連する画像領域を強調するために使用される。
本稿では,画素レベルのアノテーションを段階的に統合する能動的学習フレームワークを提案する。
提案手法は, ランダムなサンプル選択を用いることで, 最先端のCAMやAL手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2020-10-10T03:25:54Z) - Automatic Image Labelling at Pixel Level [21.59653873040243]
画素レベルの画像ラベリングを自動的に生成する興味深い学習手法を提案する。
The Guided Filter Network (GFN) was first developed to learn the segmentation knowledge from a source domain。
GFNはそのようなセグメンテーションの知識を変換し、ターゲットドメインで粗いオブジェクトマスクを生成する。
論文 参考訳(メタデータ) (2020-07-15T00:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。