論文の概要: IPS300+: a Challenging Multimodal Dataset for Intersection Perception
System
- arxiv url: http://arxiv.org/abs/2106.02781v1
- Date: Sat, 5 Jun 2021 02:48:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:10:39.294554
- Title: IPS300+: a Challenging Multimodal Dataset for Intersection Perception
System
- Title(参考訳): IPS300+: インターセクション知覚システムのためのマルチモーダル・データセット
- Authors: Huanan Wang, Xinyu Zhang, Jun Li, Zhiwei Li, Lei Yang, Shuyue Pan,
Yongqiang Deng
- Abstract要約: 混雑した都市交差点における不十分な認識は、人間ドライバーと自律アルゴリズムの両方にとって深刻な安全リスクとなる。
本稿では,交差点認識タスクのための高品質なマルチモーダルデータセットを提案する。
私たちのデータセットは、http://www.openmpd.com/column/other_datasets.comで利用可能です。
- 参考スコア(独自算出の注目度): 12.775202051430618
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Due to the high complexity and occlusion, insufficient perception in the
crowded urban intersection can be a serious safety risk for both human drivers
and autonomous algorithms, whereas CVIS (Cooperative Vehicle Infrastructure
System) is a proposed solution for full-participants perception in this
scenario. However, the research on roadside multimodal perception is still in
its infancy, and there is no open-source dataset for such scenario.
Accordingly, this paper fills the gap. Through an IPS (Intersection Perception
System) installed at the diagonal of the intersection, this paper proposes a
high-quality multimodal dataset for the intersection perception task. The
center of the experimental intersection covers an area of 3000m2, and the
extended distance reaches 300m, which is typical for CVIS. The first batch of
open-source data includes 14198 frames, and each frame has an average of 319.84
labels, which is 9.6 times larger than the most crowded dataset (H3D dataset in
2019) by now. In order to facilitate further study, this dataset tries to keep
the label documents consistent with the KITTI dataset, and a standardized
benchmark is created for algorithm evaluation. Our dataset is available at:
http://www.openmpd.com/column/other_datasets.
- Abstract(参考訳): 高複雑性と閉塞性のため、混雑した都市交差点での認識不足は、人間ドライバーと自律型アルゴリズムの両方にとって深刻な安全リスクとなりうるが、CVIS(Cooperative Vehicle Infrastructure System)は、このシナリオにおいて、フル参加者の知覚のためのソリューションとして提案されている。
しかし、道路側マルチモーダル認識の研究はまだ初期段階であり、そのようなシナリオのためのオープンソースデータセットは存在しない。
そこで本論文はそのギャップを埋める。
本稿では,交差点の対角方向に設置されたIPS(Intersection Perception System)を用いて,交差点認識タスクのための高品質なマルチモーダルデータセットを提案する。
実験的な交差点の中心は3000m2の範囲で、延長距離は300mに達する。
オープンソースデータの最初のバッチは14198フレームを含み、各フレームの平均319.84ラベルは、2019年の最も混み合ったデータセット(H3Dデータセット)の9.6倍である。
さらなる研究を容易にするため、このデータセットは、KITTIデータセットとラベル文書の整合性を維持し、アルゴリズム評価のために標準化されたベンチマークを作成する。
私たちのデータセットは、http://www.openmpd.com/column/other_datasetsで利用可能です。
関連論文リスト
- Multi-V2X: A Large Scale Multi-modal Multi-penetration-rate Dataset for Cooperative Perception [3.10770247120758]
本稿では,V2X知覚のための大規模・マルチモーダル・マルチペネレーションレートデータセットであるMulti-V2Xを紹介する。
私たちのMulti-V2Xデータセットは、合計549kのRGBフレーム、146kのLiDARフレーム、4,219kの注釈付き3Dバウンディングボックスで構成されています。
最も高いCAV侵入率は86.21%に達し、通信範囲に31のエージェントがある。
論文 参考訳(メタデータ) (2024-09-08T05:22:00Z) - Decorrelating Structure via Adapters Makes Ensemble Learning Practical for Semi-supervised Learning [50.868594148443215]
コンピュータビジョンでは、従来のアンサンブル学習法は訓練効率が低いか、限られた性能を示す。
本稿では,視覚的タスクに適応器を用いたDecorrelating Structure(DSA)による軽量,損失関数なし,アーキテクチャに依存しないアンサンブル学習を提案する。
論文 参考訳(メタデータ) (2024-08-08T01:31:38Z) - InScope: A New Real-world 3D Infrastructure-side Collaborative Perception Dataset for Open Traffic Scenarios [13.821143687548494]
本稿では,新しい3次元インフラ側協調認識データセットについて紹介する。
InScopeは303の追跡軌道と187,787個の3D境界ボックスで20日間の捕獲期間をカプセル化している。
論文 参考訳(メタデータ) (2024-07-31T13:11:14Z) - VoxelKP: A Voxel-based Network Architecture for Human Keypoint
Estimation in LiDAR Data [53.638818890966036]
textitVoxelKPは、LiDARデータにおける人間のキーポイント推定に適した、完全にスパースなネットワークアーキテクチャである。
本研究では,人間の各インスタンス内のキーポイント間の空間的相関を学習するために,スパースボックスアテンションを導入する。
鳥の視線を符号化する2次元格子に3次元ボクセルを投影する際に, 絶対的な3次元座標を利用するために空間符号化を組み込んだ。
論文 参考訳(メタデータ) (2023-12-11T23:50:14Z) - Zenseact Open Dataset: A large-scale and diverse multimodal dataset for
autonomous driving [3.549770828382121]
Zenseact Open dataset (ZOD)は、ヨーロッパ各国で2年以上にわたって収集された大規模かつ多様なデータセットである。
ZODは、同等のデータセットの中で、最高範囲と解像度のセンサーを備えている。
データセットはFrames、Sequences、Drivesで構成され、データの多様性とマルチモーダル時間学習のサポートの両方を含むように設計されている。
論文 参考訳(メタデータ) (2023-05-03T09:59:18Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - IDD-3D: Indian Driving Dataset for 3D Unstructured Road Scenes [79.18349050238413]
デプロイ可能なディープラーニングアーキテクチャの準備とトレーニングには、さまざまなトラフィックシナリオに適したモデルが必要である。
インドなどいくつかの発展途上国で見られる非構造的で複雑な運転レイアウトは、これらのモデルに挑戦している。
我々は、複数のカメラと12kの注釈付き駆動LiDARフレームを備えたLiDARセンサーのマルチモーダルデータからなる新しいデータセットIDD-3Dを構築した。
論文 参考訳(メタデータ) (2022-10-23T23:03:17Z) - OPV2V: An Open Benchmark Dataset and Fusion Pipeline for Perception with
Vehicle-to-Vehicle Communication [13.633468133727]
車両から車両への認識のための大規模なオープン・シミュレート・データセットを提示する。
70以上の興味深いシーン、11,464フレーム、232,913個の注釈付き3D車両のバウンディングボックスを含んでいる。
論文 参考訳(メタデータ) (2021-09-16T00:52:41Z) - Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文 参考訳(メタデータ) (2020-07-14T17:58:30Z) - NWPU-Crowd: A Large-Scale Benchmark for Crowd Counting and Localization [101.13851473792334]
我々は,5,109枚の画像からなる大規模集束群集NWPU-Crowdを構築し,合計2,133,375個の点と箱を付加したアノテートヘッドを構築した。
他の実世界のデータセットと比較すると、様々な照明シーンを含み、最大密度範囲 (020,033) を持つ。
本稿では,データ特性について述べるとともに,主要なSOTA(State-of-the-art)手法の性能を評価し,新たなデータに生じる問題を分析する。
論文 参考訳(メタデータ) (2020-01-10T09:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。