Fugu-MT 論文翻訳(概要): Peng Cheng Object Detection Benchmark for Smart City

論文の概要: Peng Cheng Object Detection Benchmark for Smart City

arxiv url: http://arxiv.org/abs/2203.05949v1
Date: Fri, 11 Mar 2022 14:39:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-14 14:02:07.038510
Title: Peng Cheng Object Detection Benchmark for Smart City
Title（参考訳）: スマートシティのためのPeng Chengオブジェクト検出ベンチマーク
Authors: Yaowei Wang, Zhouxin Yang, Rui Liu, Deng Li, Yuandu Lai, Leyuan Fang, Yahong Han
Abstract要約: スマートシティのための大規模オブジェクト検出ベンチマークを構築した。私たちのベンチマークには約500Kの画像が含まれており、インテリジェントトランスポート、インテリジェントセキュリティ、ドローンの3つのシナリオが含まれています。スマートシティの実際のシーンの複雑さについては、3つのシーンにおける画像の天候、閉塞、その他の複雑な環境の多様性属性が注釈付けされている。
参考スコア（独自算出の注目度）: 44.86495621870333
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Object detection is an algorithm that recognizes and locates the objects in the image and has a wide range of applications in the visual understanding of complex urban scenes. Existing object detection benchmarks mainly focus on a single specific scenario and their annotation attributes are not rich enough, these make the object detection model is not generalized for the smart city scenes. Considering the diversity and complexity of scenes in intelligent city governance, we build a large-scale object detection benchmark for the smart city. Our benchmark contains about 500K images and includes three scenarios: intelligent transportation, intelligent security, and drones. For the complexity of the real scene in the smart city, the diversity of weather, occlusion, and other complex environment diversity attributes of the images in the three scenes are annotated. The characteristics of the benchmark are analyzed and extensive experiments of the current state-of-the-art target detection algorithm are conducted based on our benchmark to show their performance.
Abstract（参考訳）: オブジェクト検出は、画像中のオブジェクトを認識し、位置を特定するアルゴリズムであり、複雑な都市シーンの視覚的理解に幅広い応用がある。既存のオブジェクト検出ベンチマークは主に1つの特定のシナリオに焦点を当てており、それらのアノテーション属性は十分にリッチではないため、スマートシティシーンではオブジェクト検出モデルを一般化しない。インテリジェントシティガバナンスにおけるシーンの多様性と複雑さを考慮して,スマートシティのための大規模オブジェクト検出ベンチマークを構築した。私たちのベンチマークには約500Kの画像が含まれており、インテリジェントトランスポート、インテリジェントセキュリティ、ドローンの3つのシナリオが含まれています。スマートシティの実際のシーンの複雑さについては、3つのシーンにおける画像の天候、閉塞、その他の複雑な環境の多様性属性が注釈付けされている。ベンチマークの特性を解析し,その性能を示すために,現在最先端の目標検出アルゴリズムの広範囲な実験を行った。

関連論文リスト

Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。 RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文参考訳（メタデータ） (2024-12-30T13:16:08Z)
Towards Flexible 3D Perception: Object-Centric Occupancy Completion Augments 3D Object Detection [54.78470057491049]
占領は3Dシーンの知覚に有望な代替手段として現れてきた。オブジェクトbboxのサプリメントとして,オブジェクト中心の占有率を導入する。これらの特徴は,最先端の3Dオブジェクト検出器の検出結果を著しく向上させることを示した。
論文参考訳（メタデータ） (2024-12-06T16:12:38Z)
3D Question Answering for City Scene Understanding [12.433903847890322]
3Dマルチモーダル質問応答(MQA)は,知的エージェントが周囲を3D環境下で理解できるようにすることによって,シーン理解において重要な役割を担っている。都市レベルのシーン理解のための3D MQAデータセットCity-3DQAを提案する。新しいベンチマークを報告し,提案したSg-CityUはCity-3DQAの異なる設定で63.94 %と63.76 %の精度を達成する。
論文参考訳（メタデータ） (2024-07-24T16:22:27Z)
HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文参考訳（メタデータ） (2024-03-19T13:39:05Z)
Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文参考訳（メタデータ） (2023-08-24T17:25:36Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文参考訳（メタデータ） (2022-08-08T08:15:34Z)
Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文参考訳（メタデータ） (2021-12-21T17:10:21Z)
A Fast Location Algorithm for Very Sparse Point Clouds Based on Object Detection [0.0]
特徴点の少ない状況下で,画像オブジェクト検出によって対象物を素早く検出するアルゴリズムを提案する。スマートフォンを持って手動で設計したシーンで実験を行い,提案手法の高精度な位置決め速度と精度を示す。
論文参考訳（メタデータ） (2021-10-21T05:17:48Z)
Semantic Segmentation on Swiss3DCities: A Benchmark Study on Aerial Photogrammetric 3D Pointcloud Dataset [67.44497676652173]
スイスの3つの都市から採取された総面積2.7 km2$の屋外3Dポイントクラウドデータセットを紹介した。データセットは、ポイントごとのラベルによるセマンティックセグメンテーションのために手動でアノテートされ、高解像度カメラを備えたマルチローターによって取得された画像のフォトグラムを用いて構築される。
論文参考訳（メタデータ） (2020-12-23T21:48:47Z)
City-Scale Visual Place Recognition with Deep Local Features Based on Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。まず,視覚的位置認識の包括的分析を行い,その課題を概観する。次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文参考訳（メタデータ） (2020-09-19T15:21:59Z)
Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文参考訳（メタデータ） (2020-06-12T09:37:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。