Fugu-MT 論文翻訳(概要): RoboSense: Large-scale Dataset and Benchmark for Multi-sensor Low-speed Autonomous Driving

論文の概要: RoboSense: Large-scale Dataset and Benchmark for Multi-sensor Low-speed Autonomous Driving

arxiv url: http://arxiv.org/abs/2408.15503v1
Date: Wed, 28 Aug 2024 03:17:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 17:22:57.316154
Title: RoboSense: Large-scale Dataset and Benchmark for Multi-sensor Low-speed Autonomous Driving
Title（参考訳）: RoboSense:マルチセンサ低速自動運転のための大規模データセットとベンチマーク
Authors: Haisheng Su, Feixiang Song, Cong Ma, Panpan Cai, Wei Wu, Cewu Lu,
Abstract要約: 大規模マルチセンサーデータセットであるRoboSenseは、ニアフィールドシーン理解を容易にするために構築されている。 RoboSenseには133K以上の同期データと1.4Mの3DバウンディングボックスとIDが含まれている。 270ドル(約2万2000円)と18ドル(約1万2000円)です。
参考スコア（独自算出の注目度）: 59.73489804296093
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robust object detection and tracking under arbitrary sight of view is challenging yet essential for the development of Autonomous Vehicle technology. With the growing demand of unmanned function vehicles, near-field scene understanding becomes an important research topic in the areas of low-speed autonomous driving. Due to the complexity of driving conditions and diversity of near obstacles such as blind spots and high occlusion, the perception capability of near-field environment is still inferior than its farther counterpart. To further enhance the intelligent ability of unmanned vehicles, in this paper, we construct a multimodal data collection platform based on 3 main types of sensors (Camera, LiDAR and Fisheye), which supports flexible sensor configurations to enable dynamic sight of view for ego vehicle, either global view or local view. Meanwhile, a large-scale multi-sensor dataset is built, named RoboSense, to facilitate near-field scene understanding. RoboSense contains more than 133K synchronized data with 1.4M 3D bounding box and IDs annotated in the full $360^{\circ}$ view, forming 216K trajectories across 7.6K temporal sequences. It has $270\times$ and $18\times$ as many annotations of near-field obstacles within 5$m$ as the previous single-vehicle datasets such as KITTI and nuScenes. Moreover, we define a novel matching criterion for near-field 3D perception and prediction metrics. Based on RoboSense, we formulate 6 popular tasks to facilitate the future development of related research, where the detailed data analysis as well as benchmarks are also provided accordingly.
Abstract（参考訳）: 任意の視界下でのロバスト物体の検出と追跡は、自律走行車技術の発展に不可欠である。無人機能車両の需要が高まる中、低速自動運転の分野では、近接場理解が重要な研究課題となっている。運転条件の複雑さやブラインドスポットやハイオクルージョンなどの近接障害物の多様性のため、近接場環境の知覚能力は、その遠方に比べて依然として劣っている。本稿では,無人車両の知的能力を高めるために,フレキシブルなセンサ構成をサポートする3種類のセンサ(Camera, LiDAR, Fisheye)をベースとしたマルチモーダルデータ収集プラットフォームを構築した。一方、近場のシーン理解を容易にするために、RoboSenseという大規模なマルチセンサーデータセットが構築されている。 RoboSenseは、1.4Mの3Dバウンディングボックスを持つ133K以上の同期データと、完全な360^{\circ}$ビューに注釈付きIDを含み、7.6Kの時間シーケンスに216Kの軌道を形成する。 KITTIやnuScenesのような以前の単一車種データセットと同様に、5$m$以内のニアフィールド障害のアノテーションが270\times$と18\times$を持っている。さらに,近距離場における3次元知覚と予測指標のマッチング基準を新たに定義する。また,RoboSenseをベースとして,関連する研究の今後の発展を促進するために6つの一般的なタスクを定式化し,詳細なデータ分析やベンチマークも提供する。

関連論文リスト

SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。 Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文参考訳（メタデータ） (2025-07-10T14:01:24Z)
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [54.441878000440965]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。 RFTで訓練されたRoboReferは最先端の空間理解を実現し、平均成功率は89.6%である。
論文参考訳（メタデータ） (2025-06-04T17:59:27Z)
RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics [26.42651735582044]
室内とテーブルトップのシーンを3Dスキャンで捉えた大規模な空間理解データセットであるRoboSpatialと,ロボット工学に関連する豊富な空間情報を付加したエゴセントリック画像を紹介する。実験の結果,RoboSpatialで訓練したモデルは,空間的空き時間予測,空間的関係予測,ロボット操作といった下流タスクのベースラインよりも優れていた。
論文参考訳（メタデータ） (2024-11-25T16:21:34Z)
JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset in Crowded Human Environments [33.85323884177833]
JRDB-PanoTrackは,ロボットシステムにおける環境理解のためのオープンワールド・パノプティクス・セグメンテーションとトラッキング・ベンチマークである。 JRDB-PanoTrackは,1)屋内および屋外の混雑シーンを含む各種データと,総合的な2Dおよび3D同期データモダリティを含む。クローズドおよびオープンワールド認識ベンチマーク用のさまざまなオブジェクトクラス、評価のためのOSPAベースのメトリクス。
論文参考訳（メタデータ） (2024-04-02T06:43:22Z)
HabitatDyn Dataset: Dynamic Object Detection to Kinematics Estimation [16.36110033895749]
本稿では,合成RGBビデオ,セマンティックラベル,深度情報,および運動情報を含むデータセットHabitatDynを提案する。 HabitatDynは移動カメラを搭載した移動ロボットの視点で作られ、6種類の移動物体をさまざまな速度で撮影する30のシーンを含んでいる。
論文参考訳（メタデータ） (2023-04-21T09:57:35Z)
Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting [58.45661235893729]
有望な自己管理タスクの1つは、注釈のないLiDARシーケンスからの3Dポイントクラウド予測である。本課題は,(1)センサ外在物(自動運転車の移動),(2)センサ内在物(特定のLiDARセンサに特有のサンプリングパターン),(3)シーン内の他の物体の形状と動きを暗黙的にキャプチャするアルゴリズムを必要とすることを示す。センサ外在性および内在性に関する4D占有率予測のポイントクラウドデータをレンダリングすることにより、注釈のないLiDARシーケンスで占有率アルゴリズムをトレーニングし、テストすることができる。
論文参考訳（メタデータ） (2023-02-25T18:12:37Z)
aiMotive Dataset: A Multimodal Dataset for Robust Autonomous Driving with Long-Range Perception [0.0]
このデータセットは、同期して校正されたLiDAR、カメラ、および360度の視野をカバーするレーダーセンサーを備えた176のシーンで構成されている。収集したデータは、昼間、夜、雨の間に、高速道路、都市、郊外で撮影された。我々は3次元物体検出のための一次元・多モードベースラインモデルを訓練した。
論文参考訳（メタデータ） (2022-11-17T10:19:59Z)
Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文参考訳（メタデータ） (2022-03-28T19:09:11Z)
KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding in 2D and 3D [67.50776195828242]
KITTI-360は、よりリッチな入力モダリティ、包括的なセマンティックインスタンスアノテーション、正確なローカライゼーションを含む郊外の運転データセットである。その結果,150k以上のセマンティクスとインスタンスのアノテート画像と1Bのアノテート3Dポイントが得られた。我々は、同じデータセット上のコンピュータビジョン、グラフィックス、ロボット工学の問題を含む、モバイル知覚に関連するいくつかのタスクのベンチマークとベースラインを構築した。
論文参考訳（メタデータ） (2021-09-28T00:41:29Z)
Domain and Modality Gaps for LiDAR-based Person Detection on Mobile Robots [91.01747068273666]
本稿では,移動ロボットのシナリオに着目した既存のLiDAR人物検出装置について検討する。実験は3Dと2D LiDARのセンサー間のモダリティのギャップだけでなく、運転と移動ロボットのシナリオ間の領域ギャップを回避している。その結果、LiDARに基づく人物検出の実践的な洞察を与え、関連する移動ロボットの設計と応用に関する情報決定を容易にする。
論文参考訳（メタデータ） (2021-06-21T16:35:49Z)
Task-relevant Representation Learning for Networked Robotic Perception [74.0215744125845]
本稿では,事前学習されたロボット知覚モデルの最終的な目的と協調して設計された感覚データのタスク関連表現を学習するアルゴリズムを提案する。本アルゴリズムは,ロボットの知覚データを競合する手法の最大11倍まで積極的に圧縮する。
論文参考訳（メタデータ） (2020-11-06T07:39:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。