論文の概要: KEPT: Knowledge-Enhanced Prediction of Trajectories from Consecutive Driving Frames with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.02966v1
- Date: Wed, 03 Sep 2025 03:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.397041
- Title: KEPT: Knowledge-Enhanced Prediction of Trajectories from Consecutive Driving Frames with Vision-Language Models
- Title(参考訳): KEPT:視覚言語モデルを用いた連続運転フレームからの軌道の知識向上予測
- Authors: Yujin Wang, Tianyi Wang, Quanfeng Liu, Wenxian Fan, Junfeng Jiao, Christian Claudel, Yunbing Yan, Bingzhao Gao, Jianqiang Wang, Hong Chen,
- Abstract要約: 本稿では,知識に富んだ視覚言語フレームワークであるKEPTを紹介する。
連続するフロントビュー駆動フレームから直接エゴ軌道を予測する。
オープンループプロトコル間の最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 19.625631486595505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate short-horizon trajectory prediction is pivotal for safe and reliable autonomous driving, yet existing vision-language models (VLMs) often fail to effectively ground their reasoning in scene dynamics and domain knowledge. To address this challenge, this paper introduces KEPT, a knowledge-enhanced VLM framework that predicts ego trajectories directly from consecutive front-view driving frames. KEPT couples a temporal frequency-spatial fusion (TFSF) video encoder, trained via self-supervised learning with hard-negative mining, with a scalable k-means + HNSW retrieval stack that supplies scene-aligned exemplars. Retrieved priors are embedded into chain-of-thought (CoT) prompts with explicit planning constraints, while a triple-stage fine-tuning schedule incrementally aligns the language head to metric spatial cues, physically feasible motion, and temporally conditioned front-view planning. Evaluated on nuScenes dataset, KEPT achieves state-of-the-art performance across open-loop protocols: under NoAvg, it achieves 0.70m average L2 with a 0.21\% collision rate; under TemAvg with lightweight ego status, it attains 0.31m average L2 and a 0.07\% collision rate. Ablation studies show that all three fine-tuning stages contribute complementary benefits, and that using Top-2 retrieved exemplars yields the best accuracy-safety trade-off. The k-means-clustered HNSW index delivers sub-millisecond retrieval latency, supporting practical deployment. These results indicate that retrieval-augmented, CoT-guided VLMs offer a promising, data-efficient pathway toward interpretable and trustworthy autonomous driving.
- Abstract(参考訳): 正確な短距離軌道予測は安全かつ信頼性の高い自律運転において重要であるが、既存の視覚言語モデル(VLM)はシーンダイナミクスやドメイン知識の推論を効果的に基礎づけることに失敗することが多い。
この課題に対処するため,本稿では,連続するフロントビュー駆動フレームからエゴ軌道を直接予測する知識強化VLMフレームワークであるKEPTを紹介する。
KEPTは、時間周波数空間融合(TFSF)ビデオエンコーダを結合し、自己教師型学習とハード負のマイニングで訓練し、拡張性のあるk-means + HNSW検索スタックでシーンアラインな例を提供する。
一方、3段階の微調整スケジュールは、言語ヘッドを計量的空間的手がかり、物理的に実現可能な動き、時間的条件付きフロントビュー計画に漸進的にアライメントする。
nuScenesデータセットに基づいて評価され、KEPTはオープンループプロトコル間の最先端のパフォーマンスを達成する。NoAvgでは平均L2が0.21\%の衝突率で平均0.70m、軽量エゴ状態のTemAvgでは平均L2が0.31m、衝突率0.07\%となる。
アブレーション研究では、3つの微調整段階が相補的な利点をもたらし、Top-2を検索した例が最良の精度と安全性のトレードオフをもたらすことが示されている。
k-means-clustered HNSW indexは、ミリ秒未満の検索遅延を提供し、実用的なデプロイメントをサポートする。
これらの結果は、CoT誘導型VLMは、解釈可能で信頼性の高い自動運転への有望でデータ効率の高い経路を提供することを示している。
関連論文リスト
- SpaRC-AD: A Baseline for Radar-Camera Fusion in End-to-End Autonomous Driving [5.343552118560704]
SpaRC-ADは、計画指向の自律運転のためのクエリベースのエンドツーエンドカメラレーダ融合フレームワークである。
本手法は、複数の自律運転タスクにおいて、最先端のビジョンのみのベースラインよりも強力な改善を実現する。
論文 参考訳(メタデータ) (2025-08-14T12:02:41Z) - DriveMind: A Dual-VLM based Reinforcement Learning Framework for Autonomous Driving [14.988477212106018]
DriveMindは、自動運転のためのセマンティック報酬フレームワークである。
平均速度は19.4 +/- 2.3 km/h、経路完了は0.98 +/- 0.03、衝突はゼロに近い。
そのセマンティック報酬は、最小分散シフトでゼロショットから実際のダッシュカムデータを一般化する。
論文 参考訳(メタデータ) (2025-06-01T03:51:09Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models [9.304973961799359]
視覚言語モデル(VLM)はシナリオ理解の促進に重要な役割を果たしている。
幻覚や現実世界の接地不足といった課題に直面している。
本研究では, コーナーケース理解におけるVLMの性能向上を目的としたRAC3を提案する。
論文 参考訳(メタデータ) (2024-12-15T04:51:30Z) - HE-Drive: Human-Like End-to-End Driving with Vision Language Models [11.845309076856365]
HE-Driveは,人類初のエンドツーエンド自動運転システムである。
HE-Driveは、データセット上での最先端性能(すなわち、平均衝突速度をVADより71%削減)と効率(SparseDriveより1.9倍高速)を達成することを示す。
論文 参考訳(メタデータ) (2024-10-07T14:06:16Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - SEPT: Towards Efficient Scene Representation Learning for Motion
Prediction [19.111948522155004]
本稿では,自己教師付き学習を活用し,複雑な交通シーンのための強力なモデルを開発するためのモデリングフレームワークSEPTを提案する。
実験により、SEPTはアーキテクチャ設計や機能エンジニアリングを伴わず、Argoverse 1 と Argoverse 2 のモーション予測ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2023-09-26T21:56:03Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。