論文の概要: Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models
- arxiv url: http://arxiv.org/abs/2405.20991v1
- Date: Fri, 31 May 2024 16:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 13:39:10.550459
- Title: Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models
- Title(参考訳): 視覚・言語基礎モデルによる運動予測のハードケース検出
- Authors: Yi Yang, Qingwen Zhang, Kei Ikemura, Nazre Batool, John Folkesson,
- Abstract要約: 本研究は、自動運転におけるハードケースの検出におけるビジョン・ランゲージ・ファンデーション・モデル(VLM)の可能性を探るものである。
設計したプロンプトで逐次画像フレームを供給し,課題のあるエージェントやシナリオを効果的に識別する,実現可能なパイプラインを提案する。
NuScenesデータセット上で、パイプラインを最先端の手法に組み込むことの有効性と可能性を示す。
- 参考スコア(独自算出の注目度): 16.452638202694246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Addressing hard cases in autonomous driving, such as anomalous road users, extreme weather conditions, and complex traffic interactions, presents significant challenges. To ensure safety, it is crucial to detect and manage these scenarios effectively for autonomous driving systems. However, the rarity and high-risk nature of these cases demand extensive, diverse datasets for training robust models. Vision-Language Foundation Models (VLMs) have shown remarkable zero-shot capabilities as being trained on extensive datasets. This work explores the potential of VLMs in detecting hard cases in autonomous driving. We demonstrate the capability of VLMs such as GPT-4v in detecting hard cases in traffic participant motion prediction on both agent and scenario levels. We introduce a feasible pipeline where VLMs, fed with sequential image frames with designed prompts, effectively identify challenging agents or scenarios, which are verified by existing prediction models. Moreover, by taking advantage of this detection of hard cases by VLMs, we further improve the training efficiency of the existing motion prediction pipeline by performing data selection for the training samples suggested by GPT. We show the effectiveness and feasibility of our pipeline incorporating VLMs with state-of-the-art methods on NuScenes datasets. The code is accessible at https://github.com/KTH-RPL/Detect_VLM.
- Abstract(参考訳): 異常な道路利用者、極端な気象条件、複雑な交通の相互作用など、自動運転における困難なケースに対処することは、重大な課題である。
安全を確保するためには、自律運転システムにおいてこれらのシナリオを効果的に検出し、管理することが不可欠である。
しかし、これらのケースの希少性とリスクの高い性質は、堅牢なモデルをトレーニングするための広範囲で多様なデータセットを必要とする。
Vision-Language Foundation Models (VLM)は、広範囲なデータセットでトレーニングされているため、目覚ましいゼロショット機能を示している。
本研究は, 自律運転におけるハードケース検出におけるVLMの可能性を探るものである。
本稿では, GPT-4v などの VLM が, エージェントレベルとシナリオレベルの両方において, 交通参加者の動作予測におけるハードケースの検出に有効であることを示す。
本稿では,既存の予測モデルにより検証された課題エージェントやシナリオを効果的に識別する,逐次的な画像フレームに設計プロンプトを付加した実現可能なパイプラインを提案する。
さらに,VLMによるこのハードケースの検出を利用して,GPTが提案するトレーニングサンプルのデータ選択を行うことで,既存の動作予測パイプラインのトレーニング効率をさらに向上する。
NuScenesデータセットの最先端手法にVLMを組み込んだパイプラインの有効性と実現可能性を示す。
コードはhttps://github.com/KTH-RPL/Detect_VLMでアクセスできる。
関連論文リスト
- CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。
我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。
予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2024-06-19T23:50:41Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - A Diffusion-Model of Joint Interactive Navigation [14.689298253430568]
本稿では,交通シナリオを生成する拡散に基づくDJINNを提案する。
我々のアプローチは、過去、現在、未来からのフレキシブルな状態観察のセットに基づいて、全てのエージェントの軌跡を共同で拡散させる。
本稿では,DJINNが様々な条件分布からの直接的テスト時間サンプリングを柔軟に行う方法を示す。
論文 参考訳(メタデータ) (2023-09-21T22:10:20Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Unsupervised Self-Driving Attention Prediction via Uncertainty Mining
and Knowledge Embedding [51.8579160500354]
本研究では、不確実性モデリングと知識統合の駆動による自動運転の注意を予測できる教師なし手法を提案する。
結果は、完全に教師された最先端のアプローチと比較して、同等またはさらに印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-17T00:28:33Z) - Detection of Active Emergency Vehicles using Per-Frame CNNs and Output
Smoothing [4.917229375785646]
一般的なアクター状態(位置や速度など)を推定することは、自動運転車に搭載された知覚システムの重要かつよく探索されたタスクである。
特に、アクティブな緊急車両(EV)では、完全なコンテキストを提供するために光ベースの信号も取得する必要がある。
本稿では,フレームレベルで動作している市販のCNNモデルと,点滅するEVライトの時間的側面を考慮した下流スムーズなモデルを用いて,アクティブEVの検出のシーケンシャルな手法を提案する。
論文 参考訳(メタデータ) (2022-12-28T04:45:51Z) - Learning energy-efficient driving behaviors by imitating experts [75.12960180185105]
本稿では,コミュニケーション・センシングにおける制御戦略と現実的限界のギャップを埋める上で,模倣学習が果たす役割について考察する。
擬似学習は、車両の5%に採用されれば、局地的な観測のみを用いて、交通条件の異なるネットワークのエネルギー効率を15%向上させる政策を導出できることを示す。
論文 参考訳(メタデータ) (2022-06-28T17:08:31Z) - VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and
Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。
高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。
センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文 参考訳(メタデータ) (2021-11-23T18:58:10Z) - WiP Abstract : Robust Out-of-distribution Motion Detection and
Localization in Autonomous CPS [3.464656011246703]
ディープラーニングのための堅牢なアウト・オブ・ディストリビューション(OOD)検出フレームワークを提案する。
提案手法は,従来の光学フロー操作と表現学習を組み合わせることで,リアルタイムに動画の駆動から異常な動きを検出する。
運転シミュレーションデータセットの評価は,本手法が関連する研究よりも統計的に頑健であることを示している。
論文 参考訳(メタデータ) (2021-07-25T06:20:05Z) - Generating and Characterizing Scenarios for Safety Testing of Autonomous
Vehicles [86.9067793493874]
最先端運転シミュレータを用いて,テストシナリオを特徴付け,生成するための効率的なメカニズムを提案する。
次世代シミュレーション(NGSIM)プロジェクトにおける実運転データの特徴付けに本手法を用いる。
事故回避の複雑さに基づいてメトリクスを定義してシナリオをランク付けし、事故発生の可能性を最小限に抑えるための洞察を提供します。
論文 参考訳(メタデータ) (2021-03-12T17:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。