Fugu-MT 論文翻訳(概要): PreSight: Enhancing Autonomous Vehicle Perception with City-Scale NeRF Priors

論文の概要: PreSight: Enhancing Autonomous Vehicle Perception with City-Scale NeRF Priors

arxiv url: http://arxiv.org/abs/2403.09079v2
Date: Thu, 11 Jul 2024 08:22:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 23:07:33.004262
Title: PreSight: Enhancing Autonomous Vehicle Perception with City-Scale NeRF Priors
Title（参考訳）: PreSight:都市規模のNeRFプリミティブによる自動運転車の認識向上
Authors: Tianyuan Yuan, Yucheng Mao, Jiawei Yang, Yicheng Liu, Yue Wang, Hang Zhao,
Abstract要約: 新しい都市をナビゲートする際、人間は徐々に、その後の訪問中にリアルタイムの知覚を補うための予備的なメンタルマップを開発していく。このような人間的アプローチに触発されて、私たちはPreSightという新しいフレームワークを導入しました。提案手法では,都市規模のニューラルフィールドを過去の旅行データで最適化し,ニューラルプライドを生成する。これらの先行は意味論と幾何学的詳細に富み、手動のアノテーションなしで導出され、様々な最先端の知覚モデルをシームレスに拡張することができる。
参考スコア（独自算出の注目度）: 31.820169879886564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous vehicles rely extensively on perception systems to navigate and interpret their surroundings. Despite significant advancements in these systems recently, challenges persist under conditions like occlusion, extreme lighting, or in unfamiliar urban areas. Unlike these systems, humans do not solely depend on immediate observations to perceive the environment. In navigating new cities, humans gradually develop a preliminary mental map to supplement real-time perception during subsequent visits. Inspired by this human approach, we introduce a novel framework, PreSight, that leverages past traversals to construct static prior memories, enhancing online perception in later navigations. Our method involves optimizing a city-scale neural radiance field with data from previous journeys to generate neural priors. These priors, rich in semantic and geometric details, are derived without manual annotations and can seamlessly augment various state-of-the-art perception models, improving their efficacy with minimal additional computational cost. Experimental results on the nuScenes dataset demonstrate the framework's high compatibility with diverse online perception models. Specifically, it shows remarkable improvements in HD-map construction and occupancy prediction tasks, highlighting its potential as a new perception framework for autonomous driving systems. Our code will be released at https://github.com/yuantianyuan01/PreSight.
Abstract（参考訳）: 自動運転車は周囲をナビゲートし解釈するために認識システムに大きく依存している。最近のシステムでは大きな進歩があったが、排他的、極端な照明、不慣れな都市部といった条件下では課題が続いている。これらのシステムとは異なり、人間は環境を知覚する瞬間的な観察にのみ依存するわけではない。新しい都市をナビゲートする際、人間は徐々に、その後の訪問中にリアルタイムの知覚を補うための予備的なメンタルマップを開発していく。このような人間的アプローチにインスパイアされたPreSightは、過去のトラバーサルを利用して静的な事前記憶を構築し、後続のナビゲーションにおけるオンライン認識を高める新しいフレームワークである。提案手法では, 都市規模のニューラルレージアンスフィールドを, 過去の旅行データで最適化し, ニューラル先行データを生成する。これらの先行は意味論と幾何学的詳細に富み、手動のアノテーションなしで導出され、様々な最先端の知覚モデルをシームレスに拡張し、最小限の計算コストで有効性を向上させることができる。 nuScenesデータセットの実験結果は、様々なオンライン知覚モデルとの高い互換性を示す。具体的には、HDマップの構築と占有予測タスクの大幅な改善を示し、自動運転システムの新しい認識フレームワークとしての可能性を強調している。私たちのコードはhttps://github.com/yuantianyuan01/PreSight.com/でリリースされます。

関連論文リスト

Spatial Retrieval Augmented Autonomous Driving [81.39665750557526]
既存の自動運転システムは、環境認識のためのセンサーに頼っている。本稿では,オフラインで取得した地理画像を付加入力として導入する空間検索パラダイムを提案する。この新しい自動運転パラダイムのさらなる研究のために、データセットキュレーションコード、データ、ベンチマークをオープンソースにします。
論文参考訳（メタデータ） (2025-12-07T14:40:49Z)
From Cognition to Precognition: A Future-Aware Framework for Social Navigation [1.9094009409000596]
本稿では,社会的に認識されたナビゲーションに取り組むための強化学習アーキテクチャであるFalconを提案する。我々はSocial-HM3DとSocial-MP3Dという2つの新しいデータセットを含むSocialNavベンチマークを導入する。我々は、最先端の学習法と古典的なルールベースの経路計画アルゴリズムを用いて、詳細な実験分析を行う。
論文参考訳（メタデータ） (2024-09-20T06:08:24Z)
RAG-based Explainable Prediction of Road Users Behaviors for Automated Driving using Knowledge Graphs and Large Language Models [8.253092044813595]
本稿では,知識グラフと大規模言語モデルの推論能力を統合した,道路利用者の行動予測システムを提案する。 1)歩行者の横断行動の予測,2)車線変更操作の予測。
論文参考訳（メタデータ） (2024-05-01T11:06:31Z)
OOSTraj: Out-of-Sight Trajectory Prediction With Vision-Positioning Denoising [49.86409475232849]
軌道予測はコンピュータビジョンと自律運転の基本である。この分野における既存のアプローチは、しばしば正確で完全な観測データを仮定する。本稿では,視覚的位置決め技術を利用した視線外軌道予測手法を提案する。
論文参考訳（メタデータ） (2024-04-02T18:30:29Z)
Visual Point Cloud Forecasting enables Scalable Autonomous Driving [28.376086570498952]
視覚的自律運転アプリケーションは、セマンティクス、三次元幾何学、時間情報を同時に含む機能を必要とする。我々は、下流のビジュアルエンコーダを事前訓練するための一般的なモデルViDARを提案する。実験の結果、例えば3D検出における3.1%のNDS、モーション予測における10%のエラー削減、計画における衝突率15%の削減といった下流タスクが顕著に向上した。
論文参考訳（メタデータ） (2023-12-29T15:44:13Z)
Implicit Occupancy Flow Fields for Perception and Prediction in Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文参考訳（メタデータ） (2023-08-02T23:39:24Z)
Policy Pre-training for End-to-end Autonomous Driving via Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文参考訳（メタデータ） (2023-01-03T08:52:49Z)
Exploring Contextual Representation and Multi-Modality for End-to-End Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文参考訳（メタデータ） (2022-10-13T05:56:20Z)
Pedestrian 3D Bounding Box Prediction [83.7135926821794]
我々は、自動運転車の複雑な動きの詳細をモデル化せずに、人間の合理的な推定値である3Dバウンディングボックスに焦点を当てる。本稿では, 歩行者の3次元境界ボックス予測のための, 単純かつ効果的なモデルを提案する。この方法は、繰り返しニューラルネットワークに基づくエンコーダ・デコーダアーキテクチャに従う。
論文参考訳（メタデータ） (2022-06-28T17:59:45Z)
Predicting Future Occupancy Grids in Dynamic Environment with Spatio-Temporal Learning [63.25627328308978]
本稿では,将来の占有予測を生成するための時間的予測ネットワークパイプラインを提案する。現在のSOTAと比較して、我々の手法は3秒の長い水平線での占有を予測している。我々は、さらなる研究を支援するために、nulisに基づくグリッド占有データセットを公開します。
論文参考訳（メタデータ） (2022-05-06T13:45:32Z)
A Framework for Multisensory Foresight for Embodied Agents [11.351546861334292]
将来の感覚状態を予測することは、ロボット、ドローン、自動運転車などの学習エージェントにとって不可欠である。本稿では,複数の感覚モーダルを探索行動と組み合わせ,この問題に対処するための予測ニューラルネットワークアーキテクチャを提案する。このフレームワークは、大規模なオブジェクトに対して9つの動作を複数回実行するヒューマノイドロボット上で、4つの感覚モーダル(ビジョン、触覚、オーディオ、触覚)を含むデータセットでテストされ、検証された。
論文参考訳（メタデータ） (2021-09-15T20:20:04Z)
End-to-end Autonomous Driving Perception with Sequential Latent Representation Learning [34.61415516112297]
エンドツーエンドのアプローチでは、システムをクリーンアップし、人間のエンジニアリングの膨大な努力を避けることができる。潜在空間は、知覚に有用なすべての関連する特徴を捉えるために導入され、逐次潜在表現学習を通じて学習される。学習したエンドツーエンドの知覚モデルは、最小限の人間工学的努力だけで検出、追跡、ローカライゼーション、マッピングの問題を解決することができる。
論文参考訳（メタデータ） (2020-03-21T05:37:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。