論文の概要: Embodied Understanding of Driving Scenarios
- arxiv url: http://arxiv.org/abs/2403.04593v1
- Date: Thu, 7 Mar 2024 15:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 13:35:07.411330
- Title: Embodied Understanding of Driving Scenarios
- Title(参考訳): 運転シナリオの身体的理解
- Authors: Yunsong Zhou, Linyan Huang, Qingwen Bu, Jia Zeng, Tianyu Li, Hang Qiu,
Hongzi Zhu, Minyi Guo, Yu Qiao, Hongyang Li
- Abstract要約: 身体的な場面理解は、自律的なエージェントがオープンな運転シナリオを理解し、解釈し、反応するための基盤となる。
本稿では,広い空間空間と時間空間を持つ運転シーンに対するエージェントの理解に適した包括的枠組みであるEmbodied Language Model (ELM)を紹介する。
ELMは、空間的ローカライゼーション能力の強いエージェントを実現するために、空間認識事前トレーニングを組み込んでいる。
- 参考スコア(独自算出の注目度): 44.21311841582762
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Embodied scene understanding serves as the cornerstone for autonomous agents
to perceive, interpret, and respond to open driving scenarios. Such
understanding is typically founded upon Vision-Language Models (VLMs).
Nevertheless, existing VLMs are restricted to the 2D domain, devoid of spatial
awareness and long-horizon extrapolation proficiencies. We revisit the key
aspects of autonomous driving and formulate appropriate rubrics. Hereby, we
introduce the Embodied Language Model (ELM), a comprehensive framework tailored
for agents' understanding of driving scenes with large spatial and temporal
spans. ELM incorporates space-aware pre-training to endow the agent with robust
spatial localization capabilities. Besides, the model employs time-aware token
selection to accurately inquire about temporal cues. We instantiate ELM on the
reformulated multi-faced benchmark, and it surpasses previous state-of-the-art
approaches in all aspects. All code, data, and models will be publicly shared.
- Abstract(参考訳): 身体的な場面理解は、自律的なエージェントがオープンな運転シナリオを理解し、解釈し、反応するための基盤となる。
このような理解は典型的には視覚言語モデル(vlms)に基づいている。
しかしながら、既存のVLMは2Dドメインに制限されており、空間認識と長い水平外挿能力が欠如している。
自動運転の重要な側面を再考し、適切なルーリックを定式化する。
本稿では,空間的および時間的スパンの大きい運転シーンをエージェントが理解するための包括的フレームワークであるembodied language model(elm)を紹介する。
ELMは、空間的ローカライゼーション能力の強いエージェントを実現するために、空間認識事前トレーニングを組み込んでいる。
さらに、タイムアウェアなトークン選択を使用して、時間的手がかりを正確に問い合わせる。
改良されたマルチフェイスベンチマークでEMMをインスタンス化し、あらゆる面で従来の最先端のアプローチを超越する。
すべてのコード、データ、モデルは公開共有される。
関連論文リスト
- OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving [12.004183122121042]
OccLLaMA (OccLLaMA) は、言語による世界モデルである。
私たちは、視覚、言語、行動のための統合されたマルチモーダル語彙を構築します。
OccLLaMAは複数のタスクで競合性能を達成する。
論文 参考訳(メタデータ) (2024-09-05T06:30:01Z) - OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文 参考訳(メタデータ) (2024-05-30T17:59:42Z) - QuAD: Query-based Interpretable Neural Motion Planning for Autonomous Driving [33.609780917199394]
自動運転車は環境を理解して適切な行動を決定する必要がある。
従来のシステムは、シーン内のエージェントを見つけるためにオブジェクト検出に依存していた。
我々は、最初に占有する時間的自律性を知覚するカスケードモジュールから遠ざかる、統一的で解釈可能で効率的な自律フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-01T21:11:43Z) - On the Road with GPT-4V(ision): Early Explorations of Visual-Language
Model on Autonomous Driving [37.617793990547625]
本報告では,最新のVLMであるGPT-4Vの徹底的な評価を行う。
我々は、シーンを駆動し、決定を下し、最終的にはドライバーの能力で行動する、モデルを理解する能力について探求する。
GPT-4Vは,既存の自律システムと比較して,シーン理解や因果推論において優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-09T12:58:37Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Context-Aware Timewise VAEs for Real-Time Vehicle Trajectory Prediction [4.640835690336652]
マルチモーダル車軌道予測のためのコンテキスト認識手法であるContextVAEを提案する。
本手法は,現場のエージェントが提示する社会的特徴と,身体環境の制約を考慮に入れたものである。
すべてのテストデータセットにおいて、ContextVAEモデルはトレーニングが高速で、リアルタイムに高品質なマルチモーダル予測を提供する。
論文 参考訳(メタデータ) (2023-02-21T18:42:24Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。