論文の概要: LLaViDA: A Large Language Vision Driving Assistant for Explicit Reasoning and Enhanced Trajectory Planning
- arxiv url: http://arxiv.org/abs/2512.18211v1
- Date: Sat, 20 Dec 2025 04:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.235689
- Title: LLaViDA: A Large Language Vision Driving Assistant for Explicit Reasoning and Enhanced Trajectory Planning
- Title(参考訳): LLaViDA: 明示的推論と拡張軌道計画のための大規模言語ビジョン駆動アシスタント
- Authors: Yudong Liu, Spencer Hallyburton, Jiwoo Kim, Yueqian Lin, Yiming Li, Qinsi Wang, Hui Ye, Jingwei Sun, Miroslav Pajic, Yiran Chen, Hai Li,
- Abstract要約: 軌道計画は、自律運転の基本的かつ挑戦的な要素である。
物体の動き予測に視覚言語モデル(VLM)を利用するLLaViDAを提案する。
NuScenesベンチマークでは、LLaViDAは最先端のエンドツーエンドおよび最近のVLM/LLMベースのベースラインを超越して、オープンループ軌道計画タスクを実行している。
- 参考スコア(独自算出の注目度): 28.59507336524504
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Trajectory planning is a fundamental yet challenging component of autonomous driving. End-to-end planners frequently falter under adverse weather, unpredictable human behavior, or complex road layouts, primarily because they lack strong generalization or few-shot capabilities beyond their training data. We propose LLaViDA, a Large Language Vision Driving Assistant that leverages a Vision-Language Model (VLM) for object motion prediction, semantic grounding, and chain-of-thought reasoning for trajectory planning in autonomous driving. A two-stage training pipeline--supervised fine-tuning followed by Trajectory Preference Optimization (TPO)--enhances scene understanding and trajectory planning by injecting regression-based supervision, produces a powerful "VLM Trajectory Planner for Autonomous Driving." On the NuScenes benchmark, LLaViDA surpasses state-of-the-art end-to-end and other recent VLM/LLM-based baselines in open-loop trajectory planning task, achieving an average L2 trajectory error of 0.31 m and a collision rate of 0.10% on the NuScenes test set. The code for this paper is available at GitHub.
- Abstract(参考訳): 軌道計画は、自律運転の基本的かつ挑戦的な要素である。
エンド・ツー・エンドのプランナーは、悪天候、予測不能な人間の行動、複雑な道路レイアウトでしばしば失敗する。
LLaViDAは、物体の動き予測、セマンティックグラウンド、および自律走行における軌道計画の連鎖推論に視覚言語モデル(VLM)を利用する大規模言語視覚運転支援システムである。
TPO(Trajectory Preference Optimization)は、回帰に基づく監督を注入することでシーン理解と軌道計画を強化し、強力な「自律運転のためのVLM軌道プランナー」を作成する。
NuScenesベンチマークでは、LLaViDAは、オープンループ軌道計画タスクにおいて最先端のエンドツーエンドおよび最近のVLM/LLMベースのベースラインを超え、平均L2軌道誤差0.31mとNuScenesテストセットでの衝突率0.10%を達成する。
この論文のコードはGitHubで公開されている。
関連論文リスト
- VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - Poutine: Vision-Language-Trajectory Pre-Training and Reinforcement Learning Post-Training Enable Robust End-to-End Autonomous Driving [19.48508500497233]
Poutineは、市販のビジョン言語モデル(VLM)を用いて、堅牢なエンドツーエンド自動運転を実現する手法である。
強力なベース駆動能力を学習するために、視覚、言語、軌跡(VLT)トークンに対する自己教師付き次トーケン予測を用いてPoutine-Baseを訓練する。
最後のPoutineモデルはテストセットで7.99 RFSを達成し、2025年のビジョンベースエンド・ツー・エンド・ドライビングチャレンジで1位となった。
論文 参考訳(メタデータ) (2025-06-12T19:14:00Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - LiloDriver: A Lifelong Learning Framework for Closed-loop Motion Planning in Long-tail Autonomous Driving Scenarios [23.913788819453796]
LiloDriverは、ロングテール自動運転シナリオにおけるクローズドループモーションプランニングのための生涯学習フレームワークである。
知覚、シーンエンコーディング、メモリベースの戦略改善、LLM誘導推論を含む4段階アーキテクチャを備えている。
本研究は、構造化メモリとLCM推論を組み合わせることで、現実の自律運転において、スケーラブルで人間ライクな動作計画を可能にすることの有効性を強調した。
論文 参考訳(メタデータ) (2025-05-22T18:33:08Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。