論文の概要: DualAD: Disentangling the Dynamic and Static World for End-to-End Driving
- arxiv url: http://arxiv.org/abs/2406.06264v1
- Date: Mon, 10 Jun 2024 13:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 13:48:16.018476
- Title: DualAD: Disentangling the Dynamic and Static World for End-to-End Driving
- Title(参考訳): DualAD: エンド・ツー・エンド運転のダイナミックで静的な世界
- Authors: Simon Doll, Niklas Hanselmann, Lukas Schneider, Richard Schulz, Marius Cordts, Markus Enzweiler, Hendrik P. A. Lensch,
- Abstract要約: 自動運転のための最先端のアプローチは、全体運転タスクの複数のサブタスクを単一のパイプラインに統合する。
動的エージェントと静的シーン要素を分離する専用表現を提案する。
DualADというタイトルの手法は、独立に訓練されたシングルタスクネットワークよりも優れています。
- 参考スコア(独自算出の注目度): 11.379456277711379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art approaches for autonomous driving integrate multiple sub-tasks of the overall driving task into a single pipeline that can be trained in an end-to-end fashion by passing latent representations between the different modules. In contrast to previous approaches that rely on a unified grid to represent the belief state of the scene, we propose dedicated representations to disentangle dynamic agents and static scene elements. This allows us to explicitly compensate for the effect of both ego and object motion between consecutive time steps and to flexibly propagate the belief state through time. Furthermore, dynamic objects can not only attend to the input camera images, but also directly benefit from the inferred static scene structure via a novel dynamic-static cross-attention. Extensive experiments on the challenging nuScenes benchmark demonstrate the benefits of the proposed dual-stream design, especially for modelling highly dynamic agents in the scene, and highlight the improved temporal consistency of our approach. Our method titled DualAD not only outperforms independently trained single-task networks, but also improves over previous state-of-the-art end-to-end models by a large margin on all tasks along the functional chain of driving.
- Abstract(参考訳): 自律運転のための最先端のアプローチは、全体運転タスクの複数のサブタスクを単一のパイプラインに統合し、異なるモジュール間で遅延表現を渡すことでエンドツーエンドでトレーニングすることができる。
シーンの信念状態を表現するために統一グリッドを使った従来のアプローチとは対照的に,動的エージェントと静的シーン要素を分離する専用表現を提案する。
これにより、連続する時間ステップ間で、エゴと物体の動きの両方の効果を明示的に補償し、時間を通して柔軟に信念状態を伝播することができる。
さらに、動的オブジェクトは入力されたカメラ画像だけでなく、新しい動的静的なクロスアテンションを通じて、推論された静的なシーン構造から直接恩恵を受けることができる。
挑戦的なnuScenesベンチマークに関する大規模な実験は、提案したデュアルストリーム設計の利点、特に現場で高度に動的にエージェントをモデル化する際の利点を実証し、我々のアプローチの時間的整合性の向上を強調している。
DualADという題名の手法は、独立に訓練されたシングルタスクネットワークを上回るだけでなく、従来の最先端のエンド・ツー・エンドモデルよりも、運転の関数的連鎖に沿った全てのタスクにおいて大きなマージンで改善する。
関連論文リスト
- Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction [14.866463843514156]
Occ Flowは、カメラ入力のみを使用して、関節の3D占有率と占有率の予測を行う最初の自己教師型作業である。
提案手法では,動的オブジェクト依存を捉えるために,後向きの時間的アテンションモジュールを組み込んでおり,次いで3次元洗練されたボリューム表現を行う。
論文 参考訳(メタデータ) (2024-07-10T12:20:11Z) - PPEA-Depth: Progressive Parameter-Efficient Adaptation for
Self-Supervised Monocular Depth Estimation [24.68378829544394]
本稿では,自己教師付き深度推定のための事前学習画像モデルを転送するプログレッシブ適応手法であるPPEA-Depthを提案する。
トレーニングは2つのシーケンシャルステージで構成されている: データセット上でトレーニングされた初期フェーズは、主に静的シーンで構成され、より複雑なデータセットへの拡張によって後継される。
実験によると、PPEA-DepthはKITTI、CityScapes、DDADデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-20T14:45:57Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - DytanVO: Joint Refinement of Visual Odometry and Motion Segmentation in
Dynamic Environments [6.5121327691369615]
動的環境を扱う最初の教師付き学習ベースVO法であるDytanVOを提案する。
実世界の動的環境における最先端VOソリューションよりも平均27.7%向上した。
論文 参考訳(メタデータ) (2022-09-17T23:56:03Z) - Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。
本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T09:28:16Z) - STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic
Cross-Modal Understanding [68.96574451918458]
静的分岐と動的分岐を用いて視覚言語依存をモデル化するSTVGというフレームワークを提案する。
静的分岐と動的分岐は、クロスモーダルトランスとして設計されている。
提案手法は39.6%のvIoUを達成し,HC-STVGの第1位を獲得した。
論文 参考訳(メタデータ) (2022-07-06T15:48:58Z) - Isolating and Leveraging Controllable and Noncontrollable Visual
Dynamics in World Models [65.97707691164558]
Iso-DreamはDream-to-Controlフレームワークを2つの側面で改善する。
まず、逆動力学を最適化することにより、世界モデルに制御可能で制御不能な情報源を学習させることを奨励する。
第2に、エージェントの挙動を世界モデルの切り離された潜在的想像力に最適化する。
論文 参考訳(メタデータ) (2022-05-27T08:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。