論文の概要: NWPU-MOC: A Benchmark for Fine-grained Multi-category Object Counting in
Aerial Images
- arxiv url: http://arxiv.org/abs/2401.10530v1
- Date: Fri, 19 Jan 2024 07:12:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 16:46:14.420510
- Title: NWPU-MOC: A Benchmark for Fine-grained Multi-category Object Counting in
Aerial Images
- Title(参考訳): NWPU-MOC: 航空画像における細粒度多カテゴリーオブジェクトカウントのベンチマーク
- Authors: Junyu Gao, Liangliang Zhao, and Xuelong Li
- Abstract要約: 本稿では,空中画像中の異なる物体の数を推定する多カテゴリオブジェクトカウントタスクを提案する。
このタスクのデータセットが存在しないことを考慮して、大規模なデータセットが収集され、解像度が1024$times$1024ピクセルの3,416のシーンで構成されている。
本稿では,RGB と NIR の特徴を融合させるために,デュアルアテンションモジュールを用いたマルチスペクトル・マルチカテゴリオブジェクトカウントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 64.92809155168595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object counting is a hot topic in computer vision, which aims to estimate the
number of objects in a given image. However, most methods only count objects of
a single category for an image, which cannot be applied to scenes that need to
count objects with multiple categories simultaneously, especially in aerial
scenes. To this end, this paper introduces a Multi-category Object Counting
(MOC) task to estimate the numbers of different objects (cars, buildings,
ships, etc.) in an aerial image. Considering the absence of a dataset for this
task, a large-scale Dataset (NWPU-MOC) is collected, consisting of 3,416 scenes
with a resolution of 1024 $\times$ 1024 pixels, and well-annotated using 14
fine-grained object categories. Besides, each scene contains RGB and Near
Infrared (NIR) images, of which the NIR spectrum can provide richer
characterization information compared with only the RGB spectrum. Based on
NWPU-MOC, the paper presents a multi-spectrum, multi-category object counting
framework, which employs a dual-attention module to fuse the features of RGB
and NIR and subsequently regress multi-channel density maps corresponding to
each object category. In addition, to modeling the dependency between different
channels in the density map with each object category, a spatial contrast loss
is designed as a penalty for overlapping predictions at the same spatial
position. Experimental results demonstrate that the proposed method achieves
state-of-the-art performance compared with some mainstream counting algorithms.
The dataset, code and models are publicly available at
https://github.com/lyongo/NWPU-MOC.
- Abstract(参考訳): オブジェクトカウントはコンピュータビジョンにおけるホットトピックであり、与えられた画像内のオブジェクトの数を推定することを目的としている。
しかし、ほとんどの手法は画像の単一のカテゴリのオブジェクトをカウントするだけであり、特に空中シーンでは複数のカテゴリのオブジェクトを同時にカウントする必要があるシーンには適用できない。
そこで本稿では, 航空画像中の異物(車, 建物, 船舶など)の数を推定する多カテゴリー対象計数(MOC)タスクを提案する。
このタスクのためのデータセットがないことを考慮し、解像度1024$\times$1024の3,416シーンからなる大規模データセット(nwpu-moc)を収集し、14の細粒度オブジェクトカテゴリを使用して注釈を付ける。
さらに、各シーンにはRGBと近赤外線(NIR)画像が含まれており、NIRスペクトルはRGBスペクトルよりもリッチな特徴情報を提供できる。
NWPU-MOCに基づいて、RGBとNIRの特徴を融合させる二重アテンションモジュールを用いて、各対象カテゴリに対応する多チャンネル密度マップを回帰するマルチスペクトル多カテゴリオブジェクトカウントフレームワークを提案する。
さらに,各対象カテゴリーの密度マップ内の異なるチャネル間の依存性をモデル化するために,空間コントラスト損失を同じ空間位置で重なる予測のペナルティとして設計する。
実験により, 提案手法は, 主流のカウントアルゴリズムと比較して, 最先端の性能を実現することを示した。
データセット、コード、モデルはhttps://github.com/lyongo/NWPU-MOCで公開されている。
関連論文リスト
- MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation [23.615122326731115]
本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。
本フレームワークは,スケール対応単分子高密度SLAMソリューション,軽量オブジェクトポーズ予測器,オブジェクトレベルのポーズグラフの3つのモジュールから構成される。
提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-08-17T08:29:54Z) - Occlusion-Aware Instance Segmentation via BiLayer Network Architectures [73.45922226843435]
本稿では,2層畳み込みネットワーク(BCNet)を提案する。このネットワークでは,トップ層がオブジェクト(オブオーバ)を検出し,ボトム層が部分的にオブオーバドされたインスタンス(オブオーバド)を推測する。
一般的な畳み込みネットワーク設計,すなわちFCN(Fully Convolutional Network)とGCN(Graph Convolutional Network)を用いた2層構造の有効性について検討する。
論文 参考訳(メタデータ) (2022-08-08T21:39:26Z) - Scale Invariant Semantic Segmentation with RGB-D Fusion [12.650574326251023]
RGB-D画像を用いたスケール不変セマンティックセグメンテーションのためのニューラルネットワークアーキテクチャを提案する。
画素単位のセマンティックセグメンテーションのためのRGBデータに深度情報を組み込んで,屋外シーンにおける異なるスケールオブジェクトに対処する。
我々のモデルはコンパクトであり、他のRGBモデルにも容易に適用できる。
論文 参考訳(メタデータ) (2022-04-10T12:54:27Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - Single Object Tracking through a Fast and Effective Single-Multiple
Model Convolutional Neural Network [0.0]
最近の最先端の(SOTA)アプローチは、エリア内の他のオブジェクトとターゲットを区別するために重い構造を持つマッチングネットワークを取ることに基づいて提案されています。
本稿では,これまでのアプローチとは対照的に,一つのショットで物体の位置を識別できる特殊なアーキテクチャを提案する。
提示されたトラッカーは、1080tiで最大120 fps$の超高速で、挑戦的な状況でsomaと比較してパフォーマンスする。
論文 参考訳(メタデータ) (2021-03-28T11:02:14Z) - Dilated-Scale-Aware Attention ConvNet For Multi-Class Object Counting [18.733301622920102]
多クラスオブジェクトカウントは、オブジェクトカウントタスクの適用範囲を広げる。
マルチターゲット検出タスクは、いくつかのシナリオでマルチクラスオブジェクトカウントを実現することができる。
ポイントレベルのアノテーションに基づく簡便かつ効率的なカウントネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T08:38:28Z) - Wide-Area Crowd Counting: Multi-View Fusion Networks for Counting in
Large Scenes [50.744452135300115]
マルチビュー・クラウドカウントのためのディープニューラルネットワークフレームワークを提案する。
提案手法は,他のマルチビューカウントベースラインと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-12-02T03:20:30Z) - Multi Receptive Field Network for Semantic Segmentation [8.06045579589765]
セグメンテーションのためのMRFM(Multi-Receptive Field Module)を提案する。
また、オブジェクト/スタッフの境界を識別するのに有効なエッジ認識損失を設計する。
具体的には、Cityscapesデータセットで83.0の平均IoU、Pascal VOC2012データセットで88.4の平均IoUを達成する。
論文 参考訳(メタデータ) (2020-11-17T11:52:23Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z) - Counting dense objects in remote sensing images [52.182698295053264]
特定の画像から関心のあるオブジェクトの数を推定するのは、難しいが重要な作業である。
本稿では,リモートセンシング画像から高密度物体を数えることに興味がある。
これらの課題に対処するために,我々はまず,リモートセンシング画像に基づく大規模オブジェクトカウントデータセットを構築した。
次に、入力画像の密度マップを生成する新しいニューラルネットワークを設計することで、データセットをベンチマークする。
論文 参考訳(メタデータ) (2020-02-14T09:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。