論文の概要: Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models
- arxiv url: http://arxiv.org/abs/2405.20991v1
- Date: Fri, 31 May 2024 16:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 13:39:10.550459
- Title: Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models
- Title(参考訳): 視覚・言語基礎モデルによる運動予測のハードケース検出
- Authors: Yi Yang, Qingwen Zhang, Kei Ikemura, Nazre Batool, John Folkesson,
- Abstract要約: 本研究は、自動運転におけるハードケースの検出におけるビジョン・ランゲージ・ファンデーション・モデル(VLM)の可能性を探るものである。
設計したプロンプトで逐次画像フレームを供給し,課題のあるエージェントやシナリオを効果的に識別する,実現可能なパイプラインを提案する。
NuScenesデータセット上で、パイプラインを最先端の手法に組み込むことの有効性と可能性を示す。
- 参考スコア(独自算出の注目度): 16.452638202694246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Addressing hard cases in autonomous driving, such as anomalous road users, extreme weather conditions, and complex traffic interactions, presents significant challenges. To ensure safety, it is crucial to detect and manage these scenarios effectively for autonomous driving systems. However, the rarity and high-risk nature of these cases demand extensive, diverse datasets for training robust models. Vision-Language Foundation Models (VLMs) have shown remarkable zero-shot capabilities as being trained on extensive datasets. This work explores the potential of VLMs in detecting hard cases in autonomous driving. We demonstrate the capability of VLMs such as GPT-4v in detecting hard cases in traffic participant motion prediction on both agent and scenario levels. We introduce a feasible pipeline where VLMs, fed with sequential image frames with designed prompts, effectively identify challenging agents or scenarios, which are verified by existing prediction models. Moreover, by taking advantage of this detection of hard cases by VLMs, we further improve the training efficiency of the existing motion prediction pipeline by performing data selection for the training samples suggested by GPT. We show the effectiveness and feasibility of our pipeline incorporating VLMs with state-of-the-art methods on NuScenes datasets. The code is accessible at https://github.com/KTH-RPL/Detect_VLM.
- Abstract(参考訳): 異常な道路利用者、極端な気象条件、複雑な交通の相互作用など、自動運転における困難なケースに対処することは、重大な課題である。
安全を確保するためには、自律運転システムにおいてこれらのシナリオを効果的に検出し、管理することが不可欠である。
しかし、これらのケースの希少性とリスクの高い性質は、堅牢なモデルをトレーニングするための広範囲で多様なデータセットを必要とする。
Vision-Language Foundation Models (VLM)は、広範囲なデータセットでトレーニングされているため、目覚ましいゼロショット機能を示している。
本研究は, 自律運転におけるハードケース検出におけるVLMの可能性を探るものである。
本稿では, GPT-4v などの VLM が, エージェントレベルとシナリオレベルの両方において, 交通参加者の動作予測におけるハードケースの検出に有効であることを示す。
本稿では,既存の予測モデルにより検証された課題エージェントやシナリオを効果的に識別する,逐次的な画像フレームに設計プロンプトを付加した実現可能なパイプラインを提案する。
さらに,VLMによるこのハードケースの検出を利用して,GPTが提案するトレーニングサンプルのデータ選択を行うことで,既存の動作予測パイプラインのトレーニング効率をさらに向上する。
NuScenesデータセットの最先端手法にVLMを組み込んだパイプラインの有効性と実現可能性を示す。
コードはhttps://github.com/KTH-RPL/Detect_VLMでアクセスできる。
関連論文リスト
- From Accidents to Insights: Leveraging Multimodal Data for Scenario-Driven ADS Testing [3.984220091774453]
本稿では,シナリオベースADSテストケース生成フレームワークであるTRACEを紹介する。
マルチモーダルデータを活用して、現実世界の事故報告から困難なシナリオを抽出することで、TRACEは少ないデータで多数の重要なテストケースを構築します。
ユーザからのフィードバックによると、TRACEはシナリオ再構築の精度が優れており、シナリオの77.5%が"ほぼ"あるいは"完全に"一貫性がある"と評価されている。
論文 参考訳(メタデータ) (2025-02-04T05:21:29Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - A Diffusion-Model of Joint Interactive Navigation [14.689298253430568]
本稿では,交通シナリオを生成する拡散に基づくDJINNを提案する。
我々のアプローチは、過去、現在、未来からのフレキシブルな状態観察のセットに基づいて、全てのエージェントの軌跡を共同で拡散させる。
本稿では,DJINNが様々な条件分布からの直接的テスト時間サンプリングを柔軟に行う方法を示す。
論文 参考訳(メタデータ) (2023-09-21T22:10:20Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Detection of Active Emergency Vehicles using Per-Frame CNNs and Output
Smoothing [4.917229375785646]
一般的なアクター状態(位置や速度など)を推定することは、自動運転車に搭載された知覚システムの重要かつよく探索されたタスクである。
特に、アクティブな緊急車両(EV)では、完全なコンテキストを提供するために光ベースの信号も取得する必要がある。
本稿では,フレームレベルで動作している市販のCNNモデルと,点滅するEVライトの時間的側面を考慮した下流スムーズなモデルを用いて,アクティブEVの検出のシーケンシャルな手法を提案する。
論文 参考訳(メタデータ) (2022-12-28T04:45:51Z) - Learning energy-efficient driving behaviors by imitating experts [75.12960180185105]
本稿では,コミュニケーション・センシングにおける制御戦略と現実的限界のギャップを埋める上で,模倣学習が果たす役割について考察する。
擬似学習は、車両の5%に採用されれば、局地的な観測のみを用いて、交通条件の異なるネットワークのエネルギー効率を15%向上させる政策を導出できることを示す。
論文 参考訳(メタデータ) (2022-06-28T17:08:31Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z) - Generating and Characterizing Scenarios for Safety Testing of Autonomous
Vehicles [86.9067793493874]
最先端運転シミュレータを用いて,テストシナリオを特徴付け,生成するための効率的なメカニズムを提案する。
次世代シミュレーション(NGSIM)プロジェクトにおける実運転データの特徴付けに本手法を用いる。
事故回避の複雑さに基づいてメトリクスを定義してシナリオをランク付けし、事故発生の可能性を最小限に抑えるための洞察を提供します。
論文 参考訳(メタデータ) (2021-03-12T17:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。