論文の概要: InsightDrive: Insight Scene Representation for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.13047v1
- Date: Mon, 17 Mar 2025 10:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:23.393964
- Title: InsightDrive: Insight Scene Representation for End-to-End Autonomous Driving
- Title(参考訳): InsightDrive: エンドツーエンドの自動運転のためのInsight Scene Representation
- Authors: Ruiqi Song, Xianda Guo, Hangbin Wu, Qinggong Wei, Long Chen,
- Abstract要約: 我々はInsightDriveと呼ばれる新しいエンドツーエンドの自動運転手法を提案する。
言語誘導されたシーン表現によって知覚を整理する。
実験では、InsightDriveはエンドツーエンドの自動運転において最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 3.8737986316149775
- License:
- Abstract: Directly generating planning results from raw sensors has become increasingly prevalent due to its adaptability and robustness in complex scenarios. Scene representation, as a key module in the pipeline, has traditionally relied on conventional perception, which focus on the global scene. However, in driving scenarios, human drivers typically focus only on regions that directly impact driving, which often coincide with those required for end-to-end autonomous driving. In this paper, a novel end-to-end autonomous driving method called InsightDrive is proposed, which organizes perception by language-guided scene representation. We introduce an instance-centric scene tokenizer that transforms the surrounding environment into map- and object-aware instance tokens. Scene attention language descriptions, which highlight key regions and obstacles affecting the ego vehicle's movement, are generated by a vision-language model that leverages the cognitive reasoning capabilities of foundation models. We then align scene descriptions with visual features using the vision-language model, guiding visual attention through these descriptions to give effectively scene representation. Furthermore, we employ self-attention and cross-attention mechanisms to model the ego-agents and ego-map relationships to comprehensively build the topological relationships of the scene. Finally, based on scene understanding, we jointly perform motion prediction and planning. Extensive experiments on the widely used nuScenes benchmark demonstrate that the proposed InsightDrive achieves state-of-the-art performance in end-to-end autonomous driving. The code is available at https://github.com/songruiqi/InsightDrive
- Abstract(参考訳): 複雑なシナリオにおいて、適応性と堅牢性のために、生センサから直接計画結果を生成することがますます普及している。
パイプラインのキーモジュールとしてのシーン表現は、伝統的に、グローバルなシーンに焦点を当てた従来の認識に依存してきた。
しかしながら、運転シナリオでは、人間ドライバーは通常、運転に直接影響を及ぼす領域のみに焦点を当てる。
本稿では,言語誘導型シーン表現による認識を組織化するInsightDriveという,エンドツーエンドの自動運転手法を提案する。
本稿では,周辺環境をマップおよびオブジェクト対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。
エゴ車の動きに影響を及ぼす重要な領域や障害を浮き彫りにするシーンアテンション言語記述は、基礎モデルの認知的推論能力を活用する視覚言語モデルによって生成される。
次に、視覚言語モデルを用いてシーン記述と視覚的特徴を一致させ、これらの記述を通して視覚的注意を誘導し、効果的にシーン表現を提供する。
さらに,エゴエージェントとエゴマップの関係をモデル化し,シーンのトポロジ的関係を包括的に構築するために,自己注意機構と相互注意機構を用いる。
最後に、シーン理解に基づいて、動作予測と計画を共同で行う。
広く使用されているnuScenesベンチマークに関する大規模な実験は、InsightDriveがエンドツーエンドの自動運転で最先端のパフォーマンスを達成することを実証している。
コードはhttps://github.com/songruiqi/InsightDriveで入手できる。
関連論文リスト
- Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving Scene [56.73568220959019]
共同自動運転(CAV)は有望な方向のようだが、開発のためのデータ収集は簡単ではない。
本研究では,運転シーンにおける異なる視点から現実的な知覚を生み出すことを目的とした,救助支援のための新しいサロゲートを提案する。
シミュレーションされたコラボレーティブデータと実車データを組み合わせた,最初のソリューションを提案する。
論文 参考訳(メタデータ) (2025-02-10T17:07:53Z) - HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation [59.675030933810106]
我々はHERMESという統合運転世界モデルを提案する。
シナリオを駆動する統合フレームワークを通じて、3Dシーン理解と将来のシーン進化(世代)をシームレスに統合する。
HERMESは最先端のパフォーマンスを実現し、生成エラーを32.4%削減し、CIDErなどの理解基準を8.0%改善した。
論文 参考訳(メタデータ) (2025-01-24T18:59:51Z) - Doe-1: Closed-Loop Autonomous Driving with Large World Model [63.99937807085461]
統合された認識,予測,計画のための大規模駆動wOrld modEl(Doe-1)を提案する。
我々は自由形式のテキストを認識に使用し、画像トークンを用いてRGB空間内での予測を直接生成する。
計画には、アクションを離散トークンに効果的にエンコードするために、位置認識型トークン化器を用いる。
論文 参考訳(メタデータ) (2024-12-12T18:59:59Z) - doScenes: An Autonomous Driving Dataset with Natural Language Instruction for Human Interaction and Vision-Language Navigation [0.0]
doScenesは、人間と車両の命令インタラクションの研究を促進するために設計された、新しいデータセットである。
DoScenesは命令と駆動応答のギャップを埋め、コンテキスト認識と適応計画を可能にする。
論文 参考訳(メタデータ) (2024-12-08T11:16:47Z) - Embodied Understanding of Driving Scenarios [44.21311841582762]
身体的な場面理解は、自律的なエージェントがオープンな運転シナリオを理解し、解釈し、反応するための基盤となる。
本稿では,広い空間空間と時間空間を持つ運転シーンに対するエージェントの理解に適した包括的枠組みであるEmbodied Language Model (ELM)を紹介する。
ELMは、空間的ローカライゼーション能力の強いエージェントを実現するために、空間認識事前トレーニングを組み込んでいる。
論文 参考訳(メタデータ) (2024-03-07T15:39:18Z) - GenAD: Generative End-to-End Autonomous Driving [13.332272121018285]
GenADは、ジェネレーティブモデリング問題に自律運転を組み込むジェネレーティブフレームワークである。
本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。
次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
論文 参考訳(メタデータ) (2024-02-18T08:21:05Z) - On the Road with GPT-4V(ision): Early Explorations of Visual-Language
Model on Autonomous Driving [37.617793990547625]
本報告では,最新のVLMであるGPT-4Vの徹底的な評価を行う。
我々は、シーンを駆動し、決定を下し、最終的にはドライバーの能力で行動する、モデルを理解する能力について探求する。
GPT-4Vは,既存の自律システムと比較して,シーン理解や因果推論において優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-09T12:58:37Z) - DriveDreamer: Towards Real-world-driven World Models for Autonomous
Driving [76.24483706445298]
実世界の運転シナリオから完全に派生した世界モデルであるDriveDreamerを紹介する。
最初の段階では、DriveDreamerは構造化されたトラフィックの制約を深く理解し、次の段階では将来の状態を予測できる。
DriveDreamerは、現実的で合理的な運転ポリシーの生成を可能にし、インタラクションと実用的なアプリケーションのための道を開く。
論文 参考訳(メタデータ) (2023-09-18T13:58:42Z) - ADAPT: Action-aware Driving Caption Transformer [24.3857045947027]
本稿では,自律車体制御と行動の意思決定ステップごとにユーザフレンドリーな自然言語ナレーションと推論を提供する,エンド・ツー・エンドのトランスフォーマー・ベースアーキテクチャであるADAPTを提案する。
BDD-Xデータセットの実験では、自動メトリクスと人的評価の両方でADAPTフレームワークの最先端のパフォーマンスが実証されている。
実世界のアプリケーションで提案するフレームワークの実現可能性を説明するために,実車用ビデオの入力を取り入れ,アクションナレーションと推論をリアルタイムで出力する,新しい展開可能なシステムを構築した。
論文 参考訳(メタデータ) (2023-02-01T18:59:19Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - SceneGen: Learning to Generate Realistic Traffic Scenes [92.98412203941912]
私たちは、ルールと分布の必要性を緩和するトラフィックシーンのニューラルオートレグレッシブモデルであるSceneGenを紹介します。
実トラフィックシーンの分布を忠実にモデル化するSceneGenの能力を実証する。
論文 参考訳(メタデータ) (2021-01-16T22:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。