Fugu-MT 論文翻訳(概要): Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models

論文の概要: Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models

arxiv url: http://arxiv.org/abs/2405.20991v1
Date: Fri, 31 May 2024 16:35:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 13:39:10.550459
Title: Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models
Title（参考訳）: 視覚・言語基礎モデルによる運動予測のハードケース検出
Authors: Yi Yang, Qingwen Zhang, Kei Ikemura, Nazre Batool, John Folkesson,
Abstract要約: 本研究は、自動運転におけるハードケースの検出におけるビジョン・ランゲージ・ファンデーション・モデル(VLM)の可能性を探るものである。設計したプロンプトで逐次画像フレームを供給し,課題のあるエージェントやシナリオを効果的に識別する,実現可能なパイプラインを提案する。 NuScenesデータセット上で、パイプラインを最先端の手法に組み込むことの有効性と可能性を示す。
参考スコア（独自算出の注目度）: 16.452638202694246
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Addressing hard cases in autonomous driving, such as anomalous road users, extreme weather conditions, and complex traffic interactions, presents significant challenges. To ensure safety, it is crucial to detect and manage these scenarios effectively for autonomous driving systems. However, the rarity and high-risk nature of these cases demand extensive, diverse datasets for training robust models. Vision-Language Foundation Models (VLMs) have shown remarkable zero-shot capabilities as being trained on extensive datasets. This work explores the potential of VLMs in detecting hard cases in autonomous driving. We demonstrate the capability of VLMs such as GPT-4v in detecting hard cases in traffic participant motion prediction on both agent and scenario levels. We introduce a feasible pipeline where VLMs, fed with sequential image frames with designed prompts, effectively identify challenging agents or scenarios, which are verified by existing prediction models. Moreover, by taking advantage of this detection of hard cases by VLMs, we further improve the training efficiency of the existing motion prediction pipeline by performing data selection for the training samples suggested by GPT. We show the effectiveness and feasibility of our pipeline incorporating VLMs with state-of-the-art methods on NuScenes datasets. The code is accessible at https://github.com/KTH-RPL/Detect_VLM.
Abstract（参考訳）: 異常な道路利用者、極端な気象条件、複雑な交通の相互作用など、自動運転における困難なケースに対処することは、重大な課題である。安全を確保するためには、自律運転システムにおいてこれらのシナリオを効果的に検出し、管理することが不可欠である。しかし、これらのケースの希少性とリスクの高い性質は、堅牢なモデルをトレーニングするための広範囲で多様なデータセットを必要とする。 Vision-Language Foundation Models (VLM)は、広範囲なデータセットでトレーニングされているため、目覚ましいゼロショット機能を示している。本研究は, 自律運転におけるハードケース検出におけるVLMの可能性を探るものである。本稿では, GPT-4v などの VLM が, エージェントレベルとシナリオレベルの両方において, 交通参加者の動作予測におけるハードケースの検出に有効であることを示す。本稿では,既存の予測モデルにより検証された課題エージェントやシナリオを効果的に識別する,逐次的な画像フレームに設計プロンプトを付加した実現可能なパイプラインを提案する。さらに,VLMによるこのハードケースの検出を利用して,GPTが提案するトレーニングサンプルのデータ選択を行うことで,既存の動作予測パイプラインのトレーニング効率をさらに向上する。 NuScenesデータセットの最先端手法にVLMを組み込んだパイプラインの有効性と実現可能性を示す。コードはhttps://github.com/KTH-RPL/Detect_VLMでアクセスできる。

関連論文リスト

Overtake Detection in Trucks Using CAN Bus Signals: A Comparative Study of Machine Learning Methods [51.28632782308621]
ボルボグループが提供する5台の車載トラックから収集した制御エリアネットワーク(CAN)バスデータを用いたオーバーテイク検出に焦点を当てた。車両操作検出、ニューラルネットワーク(ANN)、ランダムフォレスト(RF)、サポートベクトルマシン(SVM)の3つの共通分類器の評価を行った。当社のパートラック分析では、特にオーバーテイクにおいて、車両毎のトレーニングデータの量に依存する分類精度も明らかにしています。
論文参考訳（メタデータ） (2025-07-01T09:20:41Z)
Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文参考訳（メタデータ） (2025-05-09T20:28:17Z)
CurricuVLM: Towards Safe Autonomous Driving via Personalized Safety-Critical Curriculum Learning with Vision-Language Models [1.6612510324510592]
CurricuVLMは、自律運転エージェントのためのパーソナライズされたカリキュラム学習を可能にする新しいフレームワークである。我々のアプローチでは、エージェントの動作を分析し、パフォーマンスの弱点を特定し、動的に調整されたトレーニングシナリオを生成するために、視覚言語モデル(VLM)を利用する。 CurricuVLMは、通常のシナリオと安全クリティカルなシナリオの両方において、最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-02-21T00:42:40Z)
From Accidents to Insights: Leveraging Multimodal Data for Scenario-Driven ADS Testing [3.984220091774453]
本稿では,シナリオベースADSテストケース生成フレームワークであるTRACEを紹介する。マルチモーダルデータを活用して、現実世界の事故報告から困難なシナリオを抽出することで、TRACEは少ないデータで多数の重要なテストケースを構築します。ユーザからのフィードバックによると、TRACEはシナリオ再構築の精度が優れており、シナリオの77.5%が"ほぼ"あるいは"完全に"一貫性がある"と評価されている。
論文参考訳（メタデータ） (2025-02-04T05:21:29Z)
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文参考訳（メタデータ） (2025-01-07T18:59:55Z)
VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。 VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-12-19T01:53:36Z)
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文参考訳（メタデータ） (2024-08-19T09:53:49Z)
Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events [5.233512464561313]
MLLM(Multimodal Large Language Models)は、テキスト、ビジュアル、オーディオのモダリティを統合する新しいアプローチを提供する。我々のフレームワークはMLLMの推論能力を活用し、文脈固有のプロンプトを通して出力を誘導する。予備的な結果は、ゼロショット学習と正確なシナリオ分析におけるフレームワークの可能性を示している。
論文参考訳（メタデータ） (2024-06-19T23:50:41Z)
AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文参考訳（メタデータ） (2024-03-26T04:27:56Z)
Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文参考訳（メタデータ） (2023-12-13T23:06:30Z)
A Diffusion-Model of Joint Interactive Navigation [14.689298253430568]
本稿では,交通シナリオを生成する拡散に基づくDJINNを提案する。我々のアプローチは、過去、現在、未来からのフレキシブルな状態観察のセットに基づいて、全てのエージェントの軌跡を共同で拡散させる。本稿では,DJINNが様々な条件分布からの直接的テスト時間サンプリングを柔軟に行う方法を示す。
論文参考訳（メタデータ） (2023-09-21T22:10:20Z)
Unsupervised Domain Adaptation for Self-Driving from Past Traversal Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。実世界のデータセットの実験では、大幅な改善が示されている。
論文参考訳（メタデータ） (2023-09-21T15:00:31Z)
Unsupervised Self-Driving Attention Prediction via Uncertainty Mining and Knowledge Embedding [51.8579160500354]
本研究では、不確実性モデリングと知識統合の駆動による自動運転の注意を予測できる教師なし手法を提案する。結果は、完全に教師された最先端のアプローチと比較して、同等またはさらに印象的なパフォーマンスを示している。
論文参考訳（メタデータ） (2023-03-17T00:28:33Z)
Detection of Active Emergency Vehicles using Per-Frame CNNs and Output Smoothing [4.917229375785646]
一般的なアクター状態(位置や速度など)を推定することは、自動運転車に搭載された知覚システムの重要かつよく探索されたタスクである。特に、アクティブな緊急車両(EV)では、完全なコンテキストを提供するために光ベースの信号も取得する必要がある。本稿では,フレームレベルで動作している市販のCNNモデルと,点滅するEVライトの時間的側面を考慮した下流スムーズなモデルを用いて,アクティブEVの検出のシーケンシャルな手法を提案する。
論文参考訳（メタデータ） (2022-12-28T04:45:51Z)
Learning energy-efficient driving behaviors by imitating experts [75.12960180185105]
本稿では,コミュニケーション・センシングにおける制御戦略と現実的限界のギャップを埋める上で,模倣学習が果たす役割について考察する。擬似学習は、車両の5%に採用されれば、局地的な観測のみを用いて、交通条件の異なるネットワークのエネルギー効率を15%向上させる政策を導出できることを示す。
論文参考訳（メタデータ） (2022-06-28T17:08:31Z)
VISTA 2.0: An Open, Data-driven Simulator for Multimodal Sensing and Policy Learning for Autonomous Vehicles [131.2240621036954]
VISTAはオープンソースのデータ駆動シミュレータで、複数のタイプのセンサーを自律走行車に組み込む。高忠実で実世界のデータセットを使用して、VISTAはRGBカメラ、3D LiDAR、イベントベースのカメラを表現し、シミュレートする。センサタイプ毎に知覚制御ポリシーをトレーニングし,テストする能力を示し,フルスケールの自律走行車への展開を通じて,このアプローチのパワーを示す。
論文参考訳（メタデータ） (2021-11-23T18:58:10Z)
WiP Abstract : Robust Out-of-distribution Motion Detection and Localization in Autonomous CPS [3.464656011246703]
ディープラーニングのための堅牢なアウト・オブ・ディストリビューション(OOD)検出フレームワークを提案する。提案手法は,従来の光学フロー操作と表現学習を組み合わせることで,リアルタイムに動画の駆動から異常な動きを検出する。運転シミュレーションデータセットの評価は,本手法が関連する研究よりも統計的に頑健であることを示している。
論文参考訳（メタデータ） (2021-07-25T06:20:05Z)
Generating and Characterizing Scenarios for Safety Testing of Autonomous Vehicles [86.9067793493874]
最先端運転シミュレータを用いて,テストシナリオを特徴付け,生成するための効率的なメカニズムを提案する。次世代シミュレーション(NGSIM)プロジェクトにおける実運転データの特徴付けに本手法を用いる。事故回避の複雑さに基づいてメトリクスを定義してシナリオをランク付けし、事故発生の可能性を最小限に抑えるための洞察を提供します。
論文参考訳（メタデータ） (2021-03-12T17:00:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。