論文の概要: Peng Cheng Object Detection Benchmark for Smart City
- arxiv url: http://arxiv.org/abs/2203.05949v1
- Date: Fri, 11 Mar 2022 14:39:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 14:02:07.038510
- Title: Peng Cheng Object Detection Benchmark for Smart City
- Title(参考訳): スマートシティのためのPeng Chengオブジェクト検出ベンチマーク
- Authors: Yaowei Wang, Zhouxin Yang, Rui Liu, Deng Li, Yuandu Lai, Leyuan Fang,
Yahong Han
- Abstract要約: スマートシティのための大規模オブジェクト検出ベンチマークを構築した。
私たちのベンチマークには約500Kの画像が含まれており、インテリジェントトランスポート、インテリジェントセキュリティ、ドローンの3つのシナリオが含まれています。
スマートシティの実際のシーンの複雑さについては、3つのシーンにおける画像の天候、閉塞、その他の複雑な環境の多様性属性が注釈付けされている。
- 参考スコア(独自算出の注目度): 44.86495621870333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection is an algorithm that recognizes and locates the objects in
the image and has a wide range of applications in the visual understanding of
complex urban scenes. Existing object detection benchmarks mainly focus on a
single specific scenario and their annotation attributes are not rich enough,
these make the object detection model is not generalized for the smart city
scenes. Considering the diversity and complexity of scenes in intelligent city
governance, we build a large-scale object detection benchmark for the smart
city. Our benchmark contains about 500K images and includes three scenarios:
intelligent transportation, intelligent security, and drones. For the
complexity of the real scene in the smart city, the diversity of weather,
occlusion, and other complex environment diversity attributes of the images in
the three scenes are annotated. The characteristics of the benchmark are
analyzed and extensive experiments of the current state-of-the-art target
detection algorithm are conducted based on our benchmark to show their
performance.
- Abstract(参考訳): オブジェクト検出は、画像中のオブジェクトを認識し、位置を特定するアルゴリズムであり、複雑な都市シーンの視覚的理解に幅広い応用がある。
既存のオブジェクト検出ベンチマークは主に1つの特定のシナリオに焦点を当てており、それらのアノテーション属性は十分にリッチではないため、スマートシティシーンではオブジェクト検出モデルを一般化しない。
インテリジェントシティガバナンスにおけるシーンの多様性と複雑さを考慮して,スマートシティのための大規模オブジェクト検出ベンチマークを構築した。
私たちのベンチマークには約500Kの画像が含まれており、インテリジェントトランスポート、インテリジェントセキュリティ、ドローンの3つのシナリオが含まれています。
スマートシティの実際のシーンの複雑さについては、3つのシーンにおける画像の天候、閉塞、その他の複雑な環境の多様性属性が注釈付けされている。
ベンチマークの特性を解析し,その性能を示すために,現在最先端の目標検出アルゴリズムの広範囲な実験を行った。
関連論文リスト
- Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - Aerial Image Object Detection With Vision Transformer Detector (ViTDet) [0.0]
Vision Transformer Detector (ViTDet) はオブジェクト検出のためのマルチスケール特徴を抽出するために提案されている。
ViTDetのシンプルな設計は、自然のシーン画像に優れた性能を実現し、どんな検出器アーキテクチャにも簡単に組み込むことができる。
以上の結果から,VTDetは水平バウンディングボックス(HBB)オブジェクト検出において,畳み込みニューラルネットワークよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-01-28T02:25:30Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - A Fast Location Algorithm for Very Sparse Point Clouds Based on Object
Detection [0.0]
特徴点の少ない状況下で,画像オブジェクト検出によって対象物を素早く検出するアルゴリズムを提案する。
スマートフォンを持って手動で設計したシーンで実験を行い,提案手法の高精度な位置決め速度と精度を示す。
論文 参考訳(メタデータ) (2021-10-21T05:17:48Z) - Semantic Segmentation on Swiss3DCities: A Benchmark Study on Aerial
Photogrammetric 3D Pointcloud Dataset [67.44497676652173]
スイスの3つの都市から採取された総面積2.7 km2$の屋外3Dポイントクラウドデータセットを紹介した。
データセットは、ポイントごとのラベルによるセマンティックセグメンテーションのために手動でアノテートされ、高解像度カメラを備えたマルチローターによって取得された画像のフォトグラムを用いて構築される。
論文 参考訳(メタデータ) (2020-12-23T21:48:47Z) - City-Scale Visual Place Recognition with Deep Local Features Based on
Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。
まず,視覚的位置認識の包括的分析を行い,その課題を概観する。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文 参考訳(メタデータ) (2020-09-19T15:21:59Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。