論文の概要: MVLidarNet: Real-Time Multi-Class Scene Understanding for Autonomous
Driving Using Multiple Views
- arxiv url: http://arxiv.org/abs/2006.05518v2
- Date: Tue, 18 Aug 2020 03:09:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 15:28:46.327785
- Title: MVLidarNet: Real-Time Multi-Class Scene Understanding for Autonomous
Driving Using Multiple Views
- Title(参考訳): MVLidarNet:複数ビューを用いた自律走行のためのリアルタイムマルチクラスシーン理解
- Authors: Ke Chen, Ryan Oldja, Nikolai Smolyanskiy, Stan Birchfield, Alexander
Popov, David Wehr, Ibrahim Eden, Joachim Pehserl
- Abstract要約: マルチビューLidarNet(MVLidarNet)は,多層物体検出とドライビング空間分割のための2段階のディープニューラルネットワークである。
MVLidarNetは、単一のLiDARスキャンを入力として、乾燥可能な空間を同時に決定しながら、オブジェクトを検出し、分類することができる。
我々は、KITTIとはるかに大きな内部データセットの両方で結果を示し、その方法が桁違いにスケールできることを実証する。
- 参考スコア(独自算出の注目度): 60.538802124885414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving requires the inference of actionable information such as
detecting and classifying objects, and determining the drivable space. To this
end, we present Multi-View LidarNet (MVLidarNet), a two-stage deep neural
network for multi-class object detection and drivable space segmentation using
multiple views of a single LiDAR point cloud. The first stage processes the
point cloud projected onto a perspective view in order to semantically segment
the scene. The second stage then processes the point cloud (along with semantic
labels from the first stage) projected onto a bird's eye view, to detect and
classify objects. Both stages use an encoder-decoder architecture. We show that
our multi-view, multi-stage, multi-class approach is able to detect and
classify objects while simultaneously determining the drivable space using a
single LiDAR scan as input, in challenging scenes with more than one hundred
vehicles and pedestrians at a time. The system operates efficiently at 150 fps
on an embedded GPU designed for a self-driving car, including a postprocessing
step to maintain identities over time. We show results on both KITTI and a much
larger internal dataset, thus demonstrating the method's ability to scale by an
order of magnitude.
- Abstract(参考訳): 自律運転には、物体の検出や分類、ドリブル空間の決定といった行動可能な情報の推論が必要である。
そこで本研究では,マルチクラス物体検出のための2段階深層ニューラルネットワークであるmulti-view lidarnet (mvlidarnet) と,単一lidar point cloudの複数ビューを用いたdivable space segmentationを提案する。
第1ステージは、シーンをセマンティックに分割するために、視点ビューに投影されたポイントクラウドを処理する。
次に、第2段階は(第1段階のセマンティックラベルと共に)鳥の眼球に投影された点雲を処理し、物体を検出し分類する。
どちらのステージもエンコーダ-デコーダアーキテクチャを使っている。
我々は,1台のLiDARスキャンを入力として,一度に100台以上の車両や歩行者による挑戦シーンにおいて,多視点,多段階,多段階,多段階のアプローチによってオブジェクトを検出・分類できることを示す。
このシステムは、自動運転車用に設計された組込みgpu上で150fpsで効率的に動作し、時間とともにアイデンティティを維持するポストプロセッシングステップを含む。
我々は、KITTIとはるかに大きな内部データセットの両方で結果を示し、その方法が桁違いにスケールできることを実証する。
関連論文リスト
- Spatial-Temporal Multi-Cuts for Online Multiple-Camera Vehicle Tracking [5.679775668038154]
本稿では,一段階の時空間クラスタリングが可能なグラフ表現を提案する。
本手法は,クラスタ内の全ての検出点の粗い外観と位置の手がかりを保ちながら,最強の証拠に基づいてクラスタを比較することができる。
本手法では,対象シーンのトレーニング,シングルカメラトラックの事前抽出,アノテーションの追加は不要である。
論文 参考訳(メタデータ) (2024-10-03T16:23:33Z) - End-to-End 3D Object Detection using LiDAR Point Cloud [0.0]
本稿では,LiDAR点雲の新たなエンコーディングを用いて,自律走行車に近いクラスの位置を推定する手法を提案する。
出力は、シーン内のオブジェクトの位置と向きを3D境界ボックスとシーンオブジェクトのラベルで予測する。
論文 参考訳(メタデータ) (2023-12-24T00:52:14Z) - Follow Anything: Open-set detection, tracking, and following in
real-time [89.83421771766682]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。
私たちのアプローチは、何でも従う"(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。
FAnは軽量(6~8GB)グラフィックカードでラップトップにデプロイでき、毎秒6~20フレームのスループットを実現する。
論文 参考訳(メタデータ) (2023-08-10T17:57:06Z) - Linking vision and motion for self-supervised object-centric perception [16.821130222597155]
オブジェクト中心の表現は、自律運転アルゴリズムが多くの独立したエージェントとシーンの特徴の間の相互作用を推論することを可能にする。
伝統的にこれらの表現は教師付き学習によって得られてきたが、これは下流の駆動タスクからの認識を分離し、一般化を損なう可能性がある。
我々は、RGBビデオと車両のポーズを入力として、自己教師対象中心の視覚モデルを適用してオブジェクト分解を行う。
論文 参考訳(メタデータ) (2023-07-14T04:21:05Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - OmniDet: Surround View Cameras based Multi-task Visual Perception
Network for Autonomous Driving [10.3540046389057]
本研究は,未修正魚眼画像のマルチタスク視覚知覚ネットワークを提案する。
自動運転システムに必要な6つの主要なタスクで構成されている。
共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-15T10:46:24Z) - Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文 参考訳(メタデータ) (2020-07-14T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。