論文の概要: Bounding Boxes Are All We Need: Street View Image Classification via
Context Encoding of Detected Buildings
- arxiv url: http://arxiv.org/abs/2010.01305v2
- Date: Mon, 12 Oct 2020 05:52:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 11:41:09.274866
- Title: Bounding Boxes Are All We Need: Street View Image Classification via
Context Encoding of Detected Buildings
- Title(参考訳): バウンディングボックス: 検出された建物のコンテキストエンコーディングによるストリートビュー画像の分類
- Authors: Kun Zhao, Yongkun Liu, Siyuan Hao, Shaoxing Lu, Hongbin Liu, Lijian
Zhou
- Abstract要約: 「Detector-Encoder-Classifier」フレームワークが提案されている。
BEAUTY"データセットは、ストリートビューイメージの分類だけでなく、マルチクラスのビルディング検出にも利用できる。
- 参考スコア(独自算出の注目度): 7.1235778791928634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Street view images classification aiming at urban land use analysis is
difficult because the class labels (e.g., commercial area), are concepts with
higher abstract level compared to the ones of general visual tasks (e.g.,
persons and cars). Therefore, classification models using only visual features
often fail to achieve satisfactory performance. In this paper, a novel approach
based on a "Detector-Encoder-Classifier" framework is proposed. Instead of
using visual features of the whole image directly as common image-level models
based on convolutional neural networks (CNNs) do, the proposed framework
firstly obtains the bounding boxes of buildings in street view images from a
detector. Their contextual information such as the co-occurrence patterns of
building classes and their layout are then encoded into metadata by the
proposed algorithm "CODING" (Context encOding of Detected buildINGs). Finally,
these bounding box metadata are classified by a recurrent neural network (RNN).
In addition, we made a dual-labeled dataset named "BEAUTY" (Building dEtection
And Urban funcTional-zone portraYing) of 19,070 street view images and 38,857
buildings based on the existing BIC GSV [1]. The dataset can be used not only
for street view image classification, but also for multi-class building
detection. Experiments on "BEAUTY" show that the proposed approach achieves a
12.65% performance improvement on macro-precision and 12% on macro-recall over
image-level CNN based models. Our code and dataset are available at
https://github.com/kyle-one/Context-Encoding-of-Detected-Buildings/
- Abstract(参考訳): 都市の土地利用分析を目的としたストリートビュー画像分類は、クラスラベル(商業地域など)が一般的な視覚的タスク(人や車など)に比べて抽象レベルの高い概念であるため、難しい。
したがって、視覚的特徴のみを用いた分類モデルは、しばしば十分な性能を達成することができない。
本稿では,「Detector-Encoder-Classifier」フレームワークに基づく新しい手法を提案する。
畳み込みニューラルネットワーク(cnns)に基づいて,画像全体の視覚的特徴を直接共通の画像レベルモデルとして使用する代わりに,提案手法ではまず,ストリートビュー画像内の建物のバウンディングボックスを検出器から取得する。
構築クラスの共起パターンやそれらのレイアウトといったそれらのコンテキスト情報は、提案するアルゴリズム「コーディング」(検出された建物のコンテキストエンコーディング)によってメタデータにエンコードされる。
最後に、これらのバウンディングボックスメタデータは、recurrent neural network(rnn)によって分類される。
さらに,既存のBIC GSV [1]に基づいて,19,070のストリートビューイメージと38,857の建物からなるBEAUTY (Building dEtection And Urban funcTional-zone PortraYing) という2つのラベル付きデータセットを作成した。
このデータセットは、ストリートビューイメージの分類だけでなく、マルチクラスのビルディング検出にも利用できる。
BEAUTY実験の結果,画像レベルのCNNモデルを用いたマクロリコールでは12.65%,マクロリコールでは12%の性能向上が得られた。
私たちのコードとデータセットはhttps://github.com/kyle-one/Context-Encoding-of-Detected-Buildings/で利用可能です。
関連論文リスト
- Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Segmentation of Roads in Satellite Images using specially modified U-Net
CNNs [0.0]
本研究の目的は,道路画像の特定を行う都市景観の衛星画像の分類器を構築することである。
従来のコンピュータビジョンアルゴリズムとは異なり、畳み込みニューラルネットワーク(CNN)はこのタスクに対して正確で信頼性の高い結果を提供する。
論文 参考訳(メタデータ) (2021-09-29T19:08:32Z) - Graph Attention Layer Evolves Semantic Segmentation for Road Pothole
Detection: A Benchmark and Algorithms [34.80667966432126]
既存の道路穴検出アプローチは、コンピュータビジョンベースまたは機械学習ベースに分類される。
後者のアプローチは一般的に、畳み込みニューラルネットワーク(CNN)をエンドツーエンドに使用した道路孔検出に対処する。
本稿では,既存の任意のCNNに容易に展開可能で,画像特徴表現をセマンティックセグメンテーションに最適化できる新しいCNN層を提案する。
論文 参考訳(メタデータ) (2021-09-06T19:44:50Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - DetCo: Unsupervised Contrastive Learning for Object Detection [64.22416613061888]
教師なしのコントラスト学習は,CNNを用いた画像表現学習において大きな成功を収めている。
我々は,グローバルイメージとローカルイメージパッチのコントラストをフルに検討する,DetCoという新しいコントラスト学習手法を提案する。
DetCoは1倍のスケジュールでMask RCNN-C4/FPN/RetinaNet上で1.6/1.2/1.0 APで教師付き手法を一貫して上回っている。
論文 参考訳(メタデータ) (2021-02-09T12:47:20Z) - Convolutional Neural Networks from Image Markers [62.997667081978825]
特徴 画像マーカーからの学習(FLIM)は、ごく少数の画像でユーザーが描画したストロークから、バックプロパゲーションのない畳み込みフィルタを推定するために最近提案されました。
本稿では、フルコネクテッド層に対してFLIMを拡張し、異なる画像分類問題について実証する。
その結果、FLIMベースの畳み込みニューラルネットワークは、バックプロパゲーションによってゼロから訓練された同じアーキテクチャを上回ります。
論文 参考訳(メタデータ) (2020-12-15T22:58:23Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z) - Automatic Signboard Detection and Localization in Densely Populated
Developing Cities [0.0]
自然シーン画像における看板検出は, エラーのない情報検索における最優先課題である。
本稿では,看板を自動的に検出し,そのような都市に適した新しい物体検出手法を提案する。
提案手法では,符号板を正確に検出できる(背景の形状や色が多様であっても平均精度は0.90 mAP)。
論文 参考訳(メタデータ) (2020-03-04T08:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。