論文の概要: KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding
in 2D and 3D
- arxiv url: http://arxiv.org/abs/2109.13410v1
- Date: Tue, 28 Sep 2021 00:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:46:08.989394
- Title: KITTI-360: A Novel Dataset and Benchmarks for Urban Scene Understanding
in 2D and 3D
- Title(参考訳): KITTI-360:2次元・3次元都市景観理解のための新しいデータセットとベンチマーク
- Authors: Yiyi Liao, Jun Xie, Andreas Geiger
- Abstract要約: KITTI-360は、よりリッチな入力モダリティ、包括的なセマンティックインスタンスアノテーション、正確なローカライゼーションを含む郊外の運転データセットである。
その結果,150k以上のセマンティクスとインスタンスのアノテート画像と1Bのアノテート3Dポイントが得られた。
我々は、同じデータセット上のコンピュータビジョン、グラフィックス、ロボット工学の問題を含む、モバイル知覚に関連するいくつかのタスクのベンチマークとベースラインを構築した。
- 参考スコア(独自算出の注目度): 67.50776195828242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For the last few decades, several major subfields of artificial intelligence
including computer vision, graphics, and robotics have progressed largely
independently from each other. Recently, however, the community has realized
that progress towards robust intelligent systems such as self-driving cars
requires a concerted effort across the different fields. This motivated us to
develop KITTI-360, successor of the popular KITTI dataset. KITTI-360 is a
suburban driving dataset which comprises richer input modalities, comprehensive
semantic instance annotations and accurate localization to facilitate research
at the intersection of vision, graphics and robotics. For efficient annotation,
we created a tool to label 3D scenes with bounding primitives and developed a
model that transfers this information into the 2D image domain, resulting in
over 150k semantic and instance annotated images and 1B annotated 3D points.
Moreover, we established benchmarks and baselines for several tasks relevant to
mobile perception, encompassing problems from computer vision, graphics, and
robotics on the same dataset. KITTI-360 will enable progress at the
intersection of these research areas and thus contributing towards solving one
of our grand challenges: the development of fully autonomous self-driving
systems.
- Abstract(参考訳): 過去数十年間、コンピュータビジョン、グラフィックス、ロボット工学など、人工知能のいくつかの主要なサブフィールドは互いに独立して進化してきた。
しかし、近年、自動運転車のような堅牢なインテリジェントシステムへの進歩には、さまざまな分野にわたる協調的な努力が必要だとコミュニティは認識している。
これにより、一般的なKITTIデータセットの後継であるKITTI-360を開発する動機となった。
KITTI-360は、視覚、グラフィックス、ロボット工学の交差点での研究を容易にするために、より豊富な入力モダリティ、包括的なセマンティックインスタンスアノテーション、正確なローカライゼーションを含む郊外の運転データセットである。
そこで我々は,3次元シーンを境界プリミティブでラベル付けするツールを開発し,その情報を2次元画像領域に転送し,150k以上のセマンティクスとインスタンスの注釈付き画像と1Bの注釈付き3Dポイントを生成するモデルを開発した。
さらに,同じデータセット上で,コンピュータビジョンやグラフィックス,ロボット工学の問題を包含して,モバイル知覚に関連するいくつかのタスクのベンチマークとベースラインを構築した。
kitti-360は、これらの研究分野の交差点での進歩を可能にし、私たちの大きな課題である完全自動運転システムの開発に寄与します。
関連論文リスト
- HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - The NEOLIX Open Dataset for Autonomous Driving [1.4091801425319965]
自律走行領域におけるNEOLIXデータセットとその応用について述べる。
私たちのデータセットには、ポイントクラウドラベル付き約30,000フレームと、アノテーション付き600k以上の3Dバウンディングボックスが含まれています。
論文 参考訳(メタデータ) (2020-11-27T02:27:39Z) - Crowdsourced 3D Mapping: A Combined Multi-View Geometry and
Self-Supervised Learning Approach [10.610403488989428]
本稿では,意味的意味のあるランドマークの3次元位置を,カメラ固有の知識を仮定せずに推定するフレームワークを提案する。
交通標識の位置推定には,多視点幾何と深層学習に基づく自己校正,深度,エゴモーション推定を利用する。
我々はそれぞれ39cmと1.26mの平均単方向相対位置と絶対位置の精度を達成した。
論文 参考訳(メタデータ) (2020-07-25T12:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。