論文の概要: PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2507.17596v2
- Date: Thu, 24 Jul 2025 11:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 13:02:36.883103
- Title: PRIX: Learning to Plan from Raw Pixels for End-to-End Autonomous Driving
- Title(参考訳): PRIX: エンド・ツー・エンドの自動運転のためのRAW Pixelからのプランニング
- Authors: Maciej K. Wozniak, Lianhang Liu, Yixi Cai, Patric Jensfelt,
- Abstract要約: Plan from Raw Pixels (prix)は、カメラデータのみを使用して、明示的なBEV表現なしで、エンドツーエンドの自動運転アーキテクチャである。
PRIX は NavSim と nuScenes のベンチマークで最先端の性能を達成し,より大規模な多モード拡散プランナの能力に匹敵することを示す。
私たちの作業はオープンソースで、コードはhttps://maxiuw.github.io/prix.comで公開されます。
- 参考スコア(独自算出の注目度): 3.170507590346017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While end-to-end autonomous driving models show promising results, their practical deployment is often hindered by large model sizes, a reliance on expensive LiDAR sensors and computationally intensive BEV feature representations. This limits their scalability, especially for mass-market vehicles equipped only with cameras. To address these challenges, we propose PRIX (Plan from Raw Pixels). Our novel and efficient end-to-end driving architecture operates using only camera data, without explicit BEV representation and forgoing the need for LiDAR. PRIX leverages a visual feature extractor coupled with a generative planning head to predict safe trajectories from raw pixel inputs directly. A core component of our architecture is the Context-aware Recalibration Transformer (CaRT), a novel module designed to effectively enhance multi-level visual features for more robust planning. We demonstrate through comprehensive experiments that PRIX achieves state-of-the-art performance on the NavSim and nuScenes benchmarks, matching the capabilities of larger, multimodal diffusion planners while being significantly more efficient in terms of inference speed and model size, making it a practical solution for real-world deployment. Our work is open-source and the code will be at https://maxiuw.github.io/prix.
- Abstract(参考訳): エンド・ツー・エンドの自動運転モデルは有望な結果を示すが、その実践的な展開は、大きなモデルサイズ、高価なLiDARセンサーへの依存、計算集約的なBEV特徴表現によって妨げられることが多い。
これによりスケーラビリティが制限され、特にカメラのみを装備した大量販売車ではそのスケーラビリティが制限される。
これらの課題に対処するため、PRIX (Plan from Raw Pixels)を提案する。
我々の新規かつ効率的なエンドツーエンド駆動アーキテクチャは、カメラデータのみを使用して、明示的なBEV表現なしで動作し、LiDARの必要性を抑える。
PRIXは、生成計画ヘッドと結合した視覚特徴抽出器を利用して、生の画素入力から直接安全な軌跡を予測する。
アーキテクチャの中核となるコンポーネントは、より堅牢な計画のために、マルチレベルな視覚機能を効果的に強化するように設計された新しいモジュールである、コンテキスト対応リカバリトランスフォーマー(CaRT)である。
PRIX が NavSim および nuScenes ベンチマークの最先端性能を達成するための総合的な実験を通じて、より大規模なマルチモーダル拡散プランナの能力と一致し、推論速度とモデルサイズの観点からははるかに効率的であり、実世界の展開における実用的なソリューションとなることを実証する。
私たちの作業はオープンソースで、コードはhttps://maxiuw.github.io/prix.comで公開されます。
関連論文リスト
- Clip4Retrofit: Enabling Real-Time Image Labeling on Edge Devices via Cross-Architecture CLIP Distillation [1.5181915291533354]
Clip4Retrofitは、エッジデバイス上でリアルタイムな画像ラベリングを可能にする効率的なモデル蒸留フレームワークである。
このフレームワークは、数千台の車両に改造された費用対効果の高いエッジデバイスであるRetrofitカメラに展開されている。
この作業は、最先端のビジョン言語モデルとリソース制約された環境への展開のギャップを埋める。
論文 参考訳(メタデータ) (2025-05-23T15:42:52Z) - Hierarchical and Decoupled BEV Perception Learning Framework for Autonomous Driving [52.808273563372126]
本稿では,基本認識モジュールとユーザフレンドリなグラフィカルインタフェースのライブラリの提供を目的とした,新しい階層的BEV知覚パラダイムを提案する。
我々は,大規模公開データセットと合理化開発プロセスを効果的に活用するために,Pretrain-Finetune戦略を実行している。
また、マルチモジュールラーニング(MML)アプローチを提案し、複数のモデルの相乗的かつ反復的な訓練により性能を向上させる。
論文 参考訳(メタデータ) (2024-07-17T11:17:20Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - CERBERUS: Simple and Effective All-In-One Automotive Perception Model
with Multi Task Learning [4.622165486890318]
車両内組み込みコンピューティングプラットフォームは、個々のタスクに対して重いモデルを実行するのに必要な計算労力に対処できない。
CERBERUSは、マルチタスク学習アプローチを利用して、単一推論のコストで複数の知覚タスクの実行を可能にする軽量モデルである。
論文 参考訳(メタデータ) (2022-10-03T08:17:26Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Panoptic SwiftNet: Pyramidal Fusion for Real-time Panoptic Segmentation [0.0]
多くのアプリケーションは、安価なハードウェアや組み込みハードウェアの大規模な入力解像度よりも高速な推論を必要とする。
マルチスケール特徴抽出のためのバックボーン容量をトレードオフすることで,この目標を達成することを提案する。
本稿では,Cityscapes,Vistas,COCO,BSB-Aerialデータセットについてパノラマ実験を行った。
論文 参考訳(メタデータ) (2022-03-15T13:47:40Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z) - Efficient and Robust LiDAR-Based End-to-End Navigation [132.52661670308606]
我々は,LiDARをベースとした効率的なエンドツーエンドナビゲーションフレームワークを提案する。
本稿では,スパース畳み込みカーネル最適化とハードウェア対応モデル設計に基づくFast-LiDARNetを提案する。
次に,単一の前方通過のみから予測の不確かさを直接推定するハイブリッド・エビデンシャル・フュージョンを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:52:37Z) - Multi-View Fusion of Sensor Data for Improved Perception and Prediction
in Autonomous Driving [11.312620949473938]
本稿では,LiDARとカメラ画像の多視点表現を用いた物体検出と軌跡予測のエンドツーエンド手法を提案する。
我々のモデルは最先端のBird's-Eye View(BEV)ネットワーク上に構築され、歴史的なLiDARデータからボキセル化された特徴を融合する。
我々は、このモデルを、ネイティブな非量子化表現で生のLiDAR情報を使用する追加のLiDAR Range-View (RV)機能で拡張する。
論文 参考訳(メタデータ) (2020-08-27T03:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。