論文の概要: Tokenize the World into Object-level Knowledge to Address Long-tail Events in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2407.00959v1
- Date: Mon, 1 Jul 2024 04:34:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 00:46:07.616853
- Title: Tokenize the World into Object-level Knowledge to Address Long-tail Events in Autonomous Driving
- Title(参考訳): 自動車運転における長期イベント対応のためのオブジェクトレベルの知識への世界化
- Authors: Ran Tian, Boyi Li, Xinshuo Weng, Yuxiao Chen, Edward Schmerling, Yue Wang, Boris Ivanovic, Marco Pavone,
- Abstract要約: 従来のエンド・ツー・エンドの運転モデルは、トレーニング・ディストリビューション内での珍しいまたは目に見えない入力のために、長い尾のイベントに悩まされる。
オブジェクトレベルの知識に世界をトークン化する新しい多モード大規模言語モデル(MM-LLM)であるTOKENを提案する。
ToKENは、従来のエンドツーエンドの駆動モデルを活用することにより、データの不足と非効率なトークン化を効果的に軽減する。
- 参考スコア(独自算出の注目度): 43.156632952193966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The autonomous driving industry is increasingly adopting end-to-end learning from sensory inputs to minimize human biases in system design. Traditional end-to-end driving models, however, suffer from long-tail events due to rare or unseen inputs within their training distributions. To address this, we propose TOKEN, a novel Multi-Modal Large Language Model (MM-LLM) that tokenizes the world into object-level knowledge, enabling better utilization of LLM's reasoning capabilities to enhance autonomous vehicle planning in long-tail scenarios. TOKEN effectively alleviates data scarcity and inefficient tokenization by leveraging a traditional end-to-end driving model to produce condensed and semantically enriched representations of the scene, which are optimized for LLM planning compatibility through deliberate representation and reasoning alignment training stages. Our results demonstrate that TOKEN excels in grounding, reasoning, and planning capabilities, outperforming existing frameworks with a 27% reduction in trajectory L2 error and a 39% decrease in collision rates in long-tail scenarios. Additionally, our work highlights the importance of representation alignment and structured reasoning in sparking the common-sense reasoning capabilities of MM-LLMs for effective planning.
- Abstract(参考訳): 自動運転業界は、システム設計における人間のバイアスを最小限に抑えるために、感覚入力からエンドツーエンドの学習を採用するようになってきている。
しかし、従来のエンド・ツー・エンドの運転モデルは、トレーニング・ディストリビューション内で珍しい、あるいは目に見えない入力のために、長い尾のイベントに悩まされる。
そこで本研究では,多言語多言語モデル(MM-LLM, Multi-Modal Large Language Model, MM-LLM)を提案する。
TOKENは、従来のエンドツーエンドの駆動モデルを利用して、意図的な表現と推論アライメントトレーニング段階を通じてLLM計画互換性に最適化された、シーンの凝縮された、セマンティックにリッチな表現を生成することにより、データの不足と非効率なトークン化を効果的に軽減する。
以上の結果から,TOKENは基盤,推論,計画能力に優れ,軌道L2誤差が27%減少し,ロングテールシナリオでの衝突速度が39%低下した既存のフレームワークよりも優れていた。
さらに, MM-LLMを効果的に計画する上で, 表現アライメントと構造化推論の重要性を強調した。
関連論文リスト
- DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Autonomous Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesデータセットで行った実験は、DiFSDの優れた計画性能と優れた効率を示す。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Asynchronous Large Language Model Enhanced Planner for Autonomous Driving [26.72215912937613]
AsyncDriverは、リアルタイムプランナーが正確に制御可能な軌道予測を行うための新しいフレームワークである。
推論周波数の非同期性に乗じて,LLMが導入した計算コストの削減に成功している。
実験により,本手法はnuPlanの難解なシナリオに対して,より優れたクローズドループ評価性能が得られることが示された。
論文 参考訳(メタデータ) (2024-06-20T17:59:03Z) - Prompting Multi-Modal Tokens to Enhance End-to-End Autonomous Driving Imitation Learning with LLMs [10.812418229495506]
本稿では,基本的運転模倣学習と大規模言語モデルを組み合わせることで,自律運転のためのハイブリッドエンド・ツー・エンド学習フレームワークを提案する。
提案手法は、CARLAによるオフライン評価において、49.21%の運転スコアと91.34%のルート完了率を得ることができる。
論文 参考訳(メタデータ) (2024-04-07T08:31:12Z) - VLP: Vision Language Planning for Autonomous Driving [54.907602890752045]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - Distribution-aware Goal Prediction and Conformant Model-based Planning
for Safe Autonomous Driving [16.654299927694716]
本研究では,学習から学習までのタスクを,障害物認識と接地,分布認識の目標予測,モデルベース計画として再構築する。
CARLAシミュレータでは,CARNOVELベンチマークの最先端結果を報告する。
論文 参考訳(メタデータ) (2022-12-16T21:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。