論文の概要: Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model
- arxiv url: http://arxiv.org/abs/2412.09647v1
- Date: Wed, 11 Dec 2024 06:35:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:28.580159
- Title: Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model
- Title(参考訳): Bench2Drive-R: 生成モデルによる実世界データをリアクティブ閉ループ自律運転ベンチマークに変換する
- Authors: Junqi You, Xiaosong Jia, Zhiyuan Zhang, Yutao Zhu, Junchi Yan,
- Abstract要約: 我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 63.336123527432136
- License:
- Abstract: For end-to-end autonomous driving (E2E-AD), the evaluation system remains an open problem. Existing closed-loop evaluation protocols usually rely on simulators like CARLA being less realistic; while NAVSIM using real-world vision data, yet is limited to fixed planning trajectories in short horizon and assumes other agents are not reactive. We introduce Bench2Drive-R, a generative framework that enables reactive closed-loop evaluation. Unlike existing video generative models for AD, the proposed designs are tailored for interactive simulation, where sensor rendering and behavior rollout are decoupled by applying a separate behavioral controller to simulate the reactions of surrounding agents. As a result, the renderer could focus on image fidelity, control adherence, and spatial-temporal coherence. For temporal consistency, due to the step-wise interaction nature of simulation, we design a noise modulating temporal encoder with Gaussian blurring to encourage long-horizon autoregressive rollout of image sequences without deteriorating distribution shifts. For spatial consistency, a retrieval mechanism, which takes the spatially nearest images as references, is introduced to to ensure scene-level rendering fidelity during the generation process. The spatial relations between target and reference are explicitly modeled with 3D relative position encodings and the potential over-reliance of reference images is mitigated with hierarchical sampling and classifier-free guidance. We compare the generation quality of Bench2Drive-R with existing generative models and achieve state-of-the-art performance. We further integrate Bench2Drive-R into nuPlan and evaluate the generative qualities with closed-loop simulation results. We will open source our code.
- Abstract(参考訳): エンドツーエンドの自動運転(E2E-AD)では、評価システムは未解決の課題である。
既存のクローズドループ評価プロトコルは、CARLAのようなシミュレータは現実的でないが、NAVSIMは現実世界の視覚データを使用するが、短期的な計画軌道に限られており、他のエージェントは反応しないと仮定している。
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
ADの既存のビデオ生成モデルとは異なり、提案した設計は、周辺エージェントの反応をシミュレートするために別個の行動制御器を適用することで、センサのレンダリングと振る舞いのロールアウトを分離するインタラクティブなシミュレーション用に調整されている。
その結果、レンダラーは画像の忠実さ、制御の順応、空間的時間的コヒーレンスに焦点を合わせることができた。
時間的一貫性のために、シミュレーションのステップワイドな相互作用の性質から、ガウスのぼかしによるノイズ変調時間エンコーダを設計し、分散シフトを劣化させることなく、画像列の長期自己回帰ロールアウトを促進する。
空間整合性のために、空間的に最も近い画像を参照として取り出す検索機構を導入し、生成過程におけるシーンレベルのレンダリング忠実性を確保する。
対象と参照の空間的関係を3次元相対的位置エンコーディングで明示的にモデル化し、階層的サンプリングと分類器フリーガイダンスにより参照画像の潜在過度を緩和する。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
さらに, Bench2Drive-R を nuPlan に統合し, クローズドループシミュレーションによる生成特性の評価を行った。
私たちはコードをオープンソース化します。
関連論文リスト
- ACT-Bench: Towards Action Controllable World Models for Autonomous Driving [2.6749009435602122]
世界モデルは自律運転のための有望な神経シミュレータとして登場した。
動作の忠実度を定量化するためのオープンアクセス評価フレームワーク ACT-Bench を開発した。
現状のモデルが与えられた指示に完全に従わないことを示す一方で,Terraは改善された行動忠実性を実現する。
論文 参考訳(メタデータ) (2024-12-06T01:06:28Z) - CMR-Agent: Learning a Cross-Modal Agent for Iterative Image-to-Point Cloud Registration [2.400446821380503]
Image-to-point cloud registrationは、ポイントクラウドに対するRGBイメージの相対的なカメラポーズを決定することを目的としている。
学習に基づくほとんどの手法は、反復最適化のためのフィードバック機構を使わずに、特徴空間における2D-3D点対応を確立する。
本稿では,登録手順を反復マルコフ決定プロセスとして再構成し,カメラポーズの漸進的な調整を可能にすることを提案する。
論文 参考訳(メタデータ) (2024-08-05T11:40:59Z) - Planning with Adaptive World Models for Autonomous Driving [50.4439896514353]
運動プランナー(MP)は複雑な都市環境における安全なナビゲーションに不可欠である。
最近リリースされたMPベンチマークであるnuPlanは、クローズドループシミュレーションロジックで現実世界の駆動ログを拡張することで、この制限に対処している。
本稿では,モデル予測制御(MPC)ベースのプランナであるAdaptiveDriverを提案する。
論文 参考訳(メタデータ) (2024-06-15T18:53:45Z) - SceneDM: Scene-level Multi-agent Trajectory Generation with Consistent
Diffusion Models [10.057312592344507]
本研究では,SceneDMと呼ばれる拡散モデルに基づく新しいフレームワークを提案する。
SceneDMはSim Agents Benchmarkで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-27T11:39:27Z) - Real-Time Motion Prediction via Heterogeneous Polyline Transformer with
Relative Pose Encoding [121.08841110022607]
既存のエージェント中心の手法は、公開ベンチマークで顕著な性能を示した。
K-nearest neighbor attention with relative pose encoding (KNARPE) は、トランスフォーマーがペアワイズ相対表現を使用できる新しいアテンション機構である。
エージェント間でコンテキストを共有し、変化しないコンテキストを再利用することで、私たちのアプローチはシーン中心のメソッドと同じくらい効率的になり、最先端のエージェント中心のメソッドと同等に実行されます。
論文 参考訳(メタデータ) (2023-10-19T17:59:01Z) - Unsupervised Foggy Scene Understanding via Self Spatial-Temporal Label
Diffusion [51.11295961195151]
運転シーンの霧画像列の特徴を利用して、自信ある擬似ラベルを密度化する。
局所的な空間的類似性と逐次画像データの隣接時間対応の2つの発見に基づいて,新たなターゲット・ドメイン駆動擬似ラベル拡散方式を提案する。
本手法は,2つの天然霧のデータセット上で51.92%,53.84%の平均交叉結合(mIoU)を達成するのに有効である。
論文 参考訳(メタデータ) (2022-06-10T05:16:50Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。