論文の概要: Distilling Multi-modal Large Language Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2501.09757v1
- Date: Thu, 16 Jan 2025 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:09:23.535551
- Title: Distilling Multi-modal Large Language Models for Autonomous Driving
- Title(参考訳): 自律運転のための多モード大言語モデルの蒸留
- Authors: Deepti Hegde, Rajeev Yasarla, Hong Cai, Shizhong Han, Apratim Bhattacharyya, Shweta Mahajan, Litian Liu, Risheek Garrepalli, Vishal M. Patel, Fatih Porikli,
- Abstract要約: 近年のエンド・ツー・エンドの自動運転システムは,大規模言語モデル(LLM)をプランナーとして活用し,レアイベントに対する一般化性を向上させる。
我々は,LLMの世界の知識を活用しつつ,LLMフリー(あるいはビジョンベース)プランナの効率を維持するエンド・ツー・エンドの自動運転システムであるDiMAを提案する。
DiMAを用いたトレーニングでは、L2軌道誤差が37%減少し、ビジョンベースプランナーの衝突速度が80%低下し、ロングテールシナリオでは44%軌道誤差が減少する。
- 参考スコア(独自算出の注目度): 64.63127269187814
- License:
- Abstract: Autonomous driving demands safe motion planning, especially in critical "long-tail" scenarios. Recent end-to-end autonomous driving systems leverage large language models (LLMs) as planners to improve generalizability to rare events. However, using LLMs at test time introduces high computational costs. To address this, we propose DiMA, an end-to-end autonomous driving system that maintains the efficiency of an LLM-free (or vision-based) planner while leveraging the world knowledge of an LLM. DiMA distills the information from a multi-modal LLM to a vision-based end-to-end planner through a set of specially designed surrogate tasks. Under a joint training strategy, a scene encoder common to both networks produces structured representations that are semantically grounded as well as aligned to the final planning objective. Notably, the LLM is optional at inference, enabling robust planning without compromising on efficiency. Training with DiMA results in a 37% reduction in the L2 trajectory error and an 80% reduction in the collision rate of the vision-based planner, as well as a 44% trajectory error reduction in longtail scenarios. DiMA also achieves state-of-the-art performance on the nuScenes planning benchmark.
- Abstract(参考訳): 自律運転には安全な運動計画、特に重要な「ロングテール」シナリオが必要である。
近年のエンド・ツー・エンドの自動運転システムは,大規模言語モデル(LLM)をプランナーとして活用し,レアイベントに対する一般化性を向上させる。
しかし、LLMをテスト時に使用すると、高い計算コストが発生する。
そこで我々は,LLMの世界の知識を活用しつつ,LLMフリー(あるいはビジョンベース)プランナの効率を維持するエンドツーエンドの自動運転システムであるDiMAを提案する。
DiMAは、特殊に設計されたサロゲートタスクのセットを通じて、マルチモーダルLCMからビジョンベースのエンド・ツー・エンド・プランナーに情報を蒸留する。
共同トレーニング戦略では、両方のネットワークに共通するシーンエンコーダが、最終的な計画目標と整合した意味的基盤を持つ構造化された表現を生成する。
特に、LLMは推論時に任意であり、効率を損なうことなく堅牢な計画を可能にする。
DiMAを用いたトレーニングでは、L2軌道誤差が37%減少し、ビジョンベースプランナーの衝突速度が80%低下し、ロングテールシナリオでは44%軌道誤差が減少する。
DiMAはnuScenes計画ベンチマークで最先端のパフォーマンスも達成している。
関連論文リスト
- Tokenize the World into Object-level Knowledge to Address Long-tail Events in Autonomous Driving [43.156632952193966]
従来のエンド・ツー・エンドの運転モデルは、トレーニング・ディストリビューション内での珍しいまたは目に見えない入力のために、長い尾のイベントに悩まされる。
オブジェクトレベルの知識に世界をトークン化する新しい多モード大規模言語モデル(MM-LLM)であるTOKENを提案する。
ToKENは、従来のエンドツーエンドの駆動モデルを活用することにより、データの不足と非効率なトークン化を効果的に軽減する。
論文 参考訳(メタデータ) (2024-07-01T04:34:50Z) - Asynchronous Large Language Model Enhanced Planner for Autonomous Driving [26.72215912937613]
AsyncDriverは、リアルタイムプランナーが正確に制御可能な軌道予測を行うための新しいフレームワークである。
推論周波数の非同期性に乗じて,LLMが導入した計算コストの削減に成功している。
実験により,本手法はnuPlanの難解なシナリオに対して,より優れたクローズドループ評価性能が得られることが示された。
論文 参考訳(メタデータ) (2024-06-20T17:59:03Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - AutoPlan: Automatic Planning of Interactive Decision-Making Tasks With
Large Language Models [11.895111124804503]
AutoPlanは、LCMベースのエージェントをガイドして、対話的な意思決定タスクを実現するアプローチである。
実験の結果,AutoPlanはベースラインと同等の成功率を達成した。
論文 参考訳(メタデータ) (2023-05-24T11:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。