論文の概要: Grid-Centric Traffic Scenario Perception for Autonomous Driving: A Comprehensive Review
- arxiv url: http://arxiv.org/abs/2303.01212v2
- Date: Sun, 9 Jun 2024 12:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 05:58:24.475410
- Title: Grid-Centric Traffic Scenario Perception for Autonomous Driving: A Comprehensive Review
- Title(参考訳): グリッド中心交通シナリオによる自動運転の認識:総合的レビュー
- Authors: Yining Shi, Kun Jiang, Jiusi Li, Zelin Qian, Junze Wen, Mengmeng Yang, Ke Wang, Diange Yang,
- Abstract要約: グリッド中心の認識は、終わりのない長い尾のセマンティックな未知の障害を持つオープンワールド駆動シナリオに対して、より堅牢である。
近年の研究は、網羅的な環境表現のようなグリッド中心の認識の大きな利点を示している。
本研究は,2次元のBEVグリッドから3次元のBEVグリッド,4次元のBEVグリッド,および4次元のBEVグリッド技術に関する従来および現在の知識を整理する。
- 参考スコア(独自算出の注目度): 13.047382354329736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grid-centric perception is a crucial field for mobile robot perception and navigation. Nonetheless, grid-centric perception is less prevalent than object-centric perception as autonomous vehicles need to accurately perceive highly dynamic, large-scale traffic scenarios and the complexity and computational costs of grid-centric perception are high. In recent years, the rapid development of deep learning techniques and hardware provides fresh insights into the evolution of grid-centric perception. The fundamental difference between grid-centric and object-centric pipeline lies in that grid-centric perception follows a geometry-first paradigm which is more robust to the open-world driving scenarios with endless long-tailed semantically-unknown obstacles. Recent researches demonstrate the great advantages of grid-centric perception, such as comprehensive fine-grained environmental representation, greater robustness to occlusion and irregular shaped objects, better ground estimation, and safer planning policies. There is also a growing trend that the capacity of occupancy networks are greatly expanded to 4D scene perception and prediction and latest techniques are highly related to new research topics such as 4D occupancy forecasting, generative AI and world models in the field of autonomous driving. Given the lack of current surveys for this rapidly expanding field, we present a hierarchically-structured review of grid-centric perception for autonomous vehicles. We organize previous and current knowledge of occupancy grid techniques along the main vein from 2D BEV grids to 3D occupancy to 4D occupancy forecasting. We additionally summarize label-efficient occupancy learning and the role of grid-centric perception in driving systems. Lastly, we present a summary of the current research trend and provide future outlooks.
- Abstract(参考訳): グリッド中心の知覚は、移動ロボットの知覚とナビゲーションにとって重要な分野である。
にもかかわらず、グリッド中心の知覚はオブジェクト中心の知覚よりも一般的ではない。自動運転車は、非常にダイナミックで大規模な交通シナリオを正確に知覚する必要があるし、グリッド中心の知覚の複雑さと計算コストが高い。
近年、ディープラーニング技術とハードウェアの急速な発展は、グリッド中心の知覚の進化に新たな洞察を与えている。
グリッド中心のパイプラインとオブジェクト中心のパイプラインの根本的な違いは、グリッド中心の知覚が幾何学第一のパラダイムに従うことである。
最近の研究は、網羅的な環境表現、閉塞や不規則な形状の物体に対する強い堅牢性、より良い地盤推定、より安全な計画方針など、グリッド中心の認識の大きな利点を実証している。
また、4Dシーンの認識と予測に、占有ネットワークの能力が大幅に拡張され、最新の技術は、自動運転分野における4D占有予測、生成AI、世界モデルといった新しい研究トピックと密接に関連している。
この急速に拡大する分野に対する現在の調査の欠如を踏まえ、我々は、自動運転車に対するグリッド中心の認識を階層的に再検討する。
本研究は,2次元のBEVグリッドから3次元のBEVグリッド,4次元のBEVグリッド,および4次元のBEVグリッド技術に関する従来および現在の知識を整理する。
さらに、ラベル効率のよい職業学習と、運転システムにおけるグリッド中心の認識の役割を要約する。
最後に、現在の研究動向の概要と今後の展望について述べる。
関連論文リスト
- RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments [62.5830455357187]
我々は3種類のセンサー(Camera, LiDAR, Fisheye)をベースとした自我中心型マルチセンサデータ収集プラットフォームを構築した。
大規模なマルチモーダルデータセットであるRoboSenseは、エゴセントリックなロボット知覚を促進するために構築されている。
論文 参考訳(メタデータ) (2024-08-28T03:17:40Z) - A Comprehensive Review of 3D Object Detection in Autonomous Driving: Technological Advances and Future Directions [11.071271817366739]
3次元物体認識は、自律運転システムの開発において重要な要素となっている。
本稿では,カメラベース,LiDARベース,核融合検出技術を中心に,従来の3次元物体検出手法を概説する。
本稿では、時間知覚、占有グリッド、エンドツーエンド学習フレームワークなどの精度向上手法を含む今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-08-28T01:08:33Z) - A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective [20.798308029074786]
3D占有感技術は、自動運転車の密集した3D環境を観察し理解することを目的としている。
従来の鳥眼視(BEV)と同様に、3D占有感は多ソース入力の性質と情報融合の必要性を持っている。
論文 参考訳(メタデータ) (2024-05-08T16:10:46Z) - Vision-based 3D occupancy prediction in autonomous driving: a review and outlook [19.939380586314673]
本稿では,視覚に基づく3次元占有予測の背景を紹介し,その課題について論じる。
我々は3つの側面から視覚に基づく3D占有率予測の進捗状況を総合的に調査する。
代表的な研究動向を概説し,今後の展望を提案する。
論文 参考訳(メタデータ) (2024-05-04T07:39:25Z) - 3D Object Visibility Prediction in Autonomous Driving [6.802572869909114]
本稿では,新しい属性とその対応するアルゴリズムである3Dオブジェクトの可視性について述べる。
この属性の提案とその計算戦略は、下流タスクの能力を拡大することを目的としている。
論文 参考訳(メタデータ) (2024-03-06T13:07:42Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - Predicting Future Occupancy Grids in Dynamic Environment with
Spatio-Temporal Learning [63.25627328308978]
本稿では,将来の占有予測を生成するための時間的予測ネットワークパイプラインを提案する。
現在のSOTAと比較して、我々の手法は3秒の長い水平線での占有を予測している。
我々は、さらなる研究を支援するために、nulisに基づくグリッド占有データセットを公開します。
論文 参考訳(メタデータ) (2022-05-06T13:45:32Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。