論文の概要: UnO: Unsupervised Occupancy Fields for Perception and Forecasting
- arxiv url: http://arxiv.org/abs/2406.08691v1
- Date: Wed, 12 Jun 2024 23:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 21:47:58.764928
- Title: UnO: Unsupervised Occupancy Fields for Perception and Forecasting
- Title(参考訳): UnO: 知覚と予測のための教師なしの業務分野
- Authors: Ben Agro, Quinlan Sykora, Sergio Casas, Thomas Gilles, Raquel Urtasun,
- Abstract要約: 監督されたアプローチは、アノテートされたオブジェクトラベルを利用して世界のモデルを学ぶ。
我々は,LiDARデータから連続した4次元占有領域を自己監督して知覚し,予測することを学ぶ。
この教師なしの世界モデルは、タスクに簡単かつ効果的に転送できる。
- 参考スコア(独自算出の注目度): 33.205064287409094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perceiving the world and forecasting its future state is a critical task for self-driving. Supervised approaches leverage annotated object labels to learn a model of the world -- traditionally with object detections and trajectory predictions, or temporal bird's-eye-view (BEV) occupancy fields. However, these annotations are expensive and typically limited to a set of predefined categories that do not cover everything we might encounter on the road. Instead, we learn to perceive and forecast a continuous 4D (spatio-temporal) occupancy field with self-supervision from LiDAR data. This unsupervised world model can be easily and effectively transferred to downstream tasks. We tackle point cloud forecasting by adding a lightweight learned renderer and achieve state-of-the-art performance in Argoverse 2, nuScenes, and KITTI. To further showcase its transferability, we fine-tune our model for BEV semantic occupancy forecasting and show that it outperforms the fully supervised state-of-the-art, especially when labeled data is scarce. Finally, when compared to prior state-of-the-art on spatio-temporal geometric occupancy prediction, our 4D world model achieves a much higher recall of objects from classes relevant to self-driving.
- Abstract(参考訳): 世界を理解し、将来の状態を予測することは、自動運転にとって重要な課題である。
監視されたアプローチは、注釈付きオブジェクトラベルを活用して世界のモデルを学ぶ -- 伝統的にオブジェクトの検出と軌道予測、あるいは時間鳥の目視(BEV)の占有フィールドで。
しかしながら、これらのアノテーションは高価で、一般的には、道路で遭遇する可能性のある全てをカバーしない、事前定義されたカテゴリのセットに限られます。
その代わり、LiDARデータから連続した4D(時空間)占有領域を自己監督することで知覚し、予測することを学ぶ。
この教師なしの世界モデルは、下流のタスクに簡単かつ効果的に転送できる。
Argoverse 2 nuScenes と KITTI では,軽量な学習用レンダラの追加によるポイントクラウド予測に取り組み,最先端のパフォーマンスを実現している。
さらにその伝達可能性を示すために,BEVセマンティック占有予測のモデルを微調整し,特にラベル付きデータが不足している場合に,完全に監督された最先端技術よりも優れていることを示す。
最後に、時空間的占有率予測に関する先行技術と比較すると、我々の4Dワールドモデルは、自動運転に関連するクラスからのオブジェクトのリコールをはるかに高い精度で達成する。
関連論文リスト
- Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.100104512786107]
Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。
本研究では, 速度, 操舵角度, 軌道, 指令などの柔軟な動作条件を世界モデルに注入することを提案する。
nuScenesデータセットの実験により,本手法は可塑性かつ制御可能な4D占有率を生成可能であることが示された。
論文 参考訳(メタデータ) (2024-08-26T11:53:09Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
コストのかかるラベルを必要とせずにエンドツーエンドの運転を改善するための,新しい自己管理手法を提案する。
フレームワーク textbfLAW は LAtent World モデルを用いて,予測エゴアクションと現在のフレームの潜在機能に基づいて,今後の潜在機能を予測する。
その結果,オープンループベンチマークとクローズループベンチマークの両方において,コストのかかるアノテーションを使わずに最先端のパフォーマンスを実現することができた。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds [79.00975648564483]
ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、現実のシナリオにおいて課題に直面している。
このデータセットは、ロボットの観点から、すべてのエージェント、シーンイメージ、ポイントクラウドの位置を含む包括的なデータを提供する。
本研究の目的は,ロボットに対するエージェントの将来の位置を,生の感覚入力データを用いて予測することである。
論文 参考訳(メタデータ) (2023-11-05T18:59:31Z) - Vehicle Motion Forecasting using Prior Information and Semantic-assisted
Occupancy Grid Maps [6.99274104609965]
運動は、センサーデータの不確実性、未来の非決定論的性質、複雑な振る舞いによって、自動運転車にとって困難なタスクである。
本稿では,シーンを動的占有グリッドマップ(DOGM)として表現することで,この問題に対処する。
本研究では,車両の挙動を予測するための時間的および確率的アプローチを組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-08T14:49:44Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting [58.45661235893729]
有望な自己管理タスクの1つは、注釈のないLiDARシーケンスからの3Dポイントクラウド予測である。
本課題は,(1)センサ外在物(自動運転車の移動),(2)センサ内在物(特定のLiDARセンサに特有のサンプリングパターン),(3)シーン内の他の物体の形状と動きを暗黙的にキャプチャするアルゴリズムを必要とすることを示す。
センサ外在性および内在性に関する4D占有率予測のポイントクラウドデータをレンダリングすることにより、注釈のないLiDARシーケンスで占有率アルゴリズムをトレーニングし、テストすることができる。
論文 参考訳(メタデータ) (2023-02-25T18:12:37Z) - T2FPV: Constructing High-Fidelity First-Person View Datasets From
Real-World Pedestrian Trajectories [9.44806128120871]
実世界のトップダウントラジェクトリ・データセットから高忠実度1人称ビュー・データセットを構築する方法T2FPVを提案する。
ETH/UCY歩行者データセットを用いて、対話する歩行者の自我中心の視覚データを生成する。
論文 参考訳(メタデータ) (2022-09-22T20:14:43Z) - Predicting Future Occupancy Grids in Dynamic Environment with
Spatio-Temporal Learning [63.25627328308978]
本稿では,将来の占有予測を生成するための時間的予測ネットワークパイプラインを提案する。
現在のSOTAと比較して、我々の手法は3秒の長い水平線での占有を予測している。
我々は、さらなる研究を支援するために、nulisに基づくグリッド占有データセットを公開します。
論文 参考訳(メタデータ) (2022-05-06T13:45:32Z) - Physically constrained short-term vehicle trajectory forecasting with
naive semantic maps [6.85316573653194]
本稿では,エージェントの一般的な動きだけでなく,意味地図から関連する道路特徴を抽出する学習モデルを提案する。
我々は,道路境界を考慮した将来の動きを予測できるだけでなく,当初の訓練よりも長い時間的地平線の軌道を効果的かつ正確に予測できることを示した。
論文 参考訳(メタデータ) (2020-06-09T09:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。