論文の概要: NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2509.25944v1
- Date: Tue, 30 Sep 2025 08:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.068917
- Title: NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving
- Title(参考訳): NuRisk: 自律運転におけるエージェントレベルリスクアセスメントのための視覚的質問応答データセット
- Authors: Yuan Gao, Mattia Piccinini, Roberto Brusnicki, Yuchen Zhang, Johannes Betz,
- Abstract要約: 自律運転におけるリスクを理解するには、エージェントの振る舞いとコンテキストに関する高いレベルの推論が必要である。
現在の視覚言語モデル(Ms)に基づく手法は主に静的画像のグラウンドエージェントである。
自律運転における明示的時間的推論の促進のための重要なベンチマークとして,NuRiskを提案する。
- 参考スコア(独自算出の注目度): 10.340969230365138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding risk in autonomous driving requires not only perception and prediction, but also high-level reasoning about agent behavior and context. Current Vision Language Models (VLMs)-based methods primarily ground agents in static images and provide qualitative judgments, lacking the spatio-temporal reasoning needed to capture how risks evolve over time. To address this gap, we propose NuRisk, a comprehensive Visual Question Answering (VQA) dataset comprising 2,900 scenarios and 1.1 million agent-level samples, built on real-world data from nuScenes and Waymo, supplemented with safety-critical scenarios from the CommonRoad simulator. The dataset provides Bird-Eye-View (BEV) based sequential images with quantitative, agent-level risk annotations, enabling spatio-temporal reasoning. We benchmark well-known VLMs across different prompting techniques and find that they fail to perform explicit spatio-temporal reasoning, resulting in a peak accuracy of 33% at high latency. To address these shortcomings, our fine-tuned 7B VLM agent improves accuracy to 41% and reduces latency by 75%, demonstrating explicit spatio-temporal reasoning capabilities that proprietary models lacked. While this represents a significant step forward, the modest accuracy underscores the profound challenge of the task, establishing NuRisk as a critical benchmark for advancing spatio-temporal reasoning in autonomous driving.
- Abstract(参考訳): 自律運転におけるリスクを理解するには、認識と予測だけでなく、エージェントの行動とコンテキストに関する高いレベルの推論が必要である。
現在の視覚言語モデル(VLM)に基づく手法は、主に静的イメージにエージェントを接地させ、質的な判断を提供するが、時間とともにリスクがどのように進化するかを捉えるのに必要な時空間的推論は欠如している。
このギャップを解決するために,NuRiskを提案する。NuRiskは2900のシナリオと1100万のエージェントレベルのサンプルで構成され,NuScenesとWaymoの実際のデータ上に構築され,CommonRoadシミュレータの安全クリティカルなシナリオを補完する,総合的なビジュアル質問回答(VQA)データセットである。
このデータセットは、Bird-Eye-View(BEV)ベースのシーケンシャルイメージに定量的なエージェントレベルのリスクアノテーションを提供し、時空間推論を可能にする。
我々は、様々なプロンプト技術にまたがってよく知られたVLMをベンチマークし、露骨な時空間推論に失敗し、高いレイテンシでピーク精度が33%に達することを発見した。
これらの欠点に対処するため、我々の微調整 7B VLM エージェントは精度を 41% に改善し、遅延を75% 削減し、プロプライエタリなモデルに欠ける時空間的推論能力を明示した。
これは重要な一歩だが、この微妙な精度はタスクの重大な課題を浮き彫りにして、自動運転における時空間推論を前進させる重要なベンチマークとしてNuRiskを確立している。
関連論文リスト
- Towards Evaluating Proactive Risk Awareness of Multimodal Language Models [38.55193215852595]
プロアクティブな安全人工知能(AI)システムは、リアクティブシステムよりもうまく機能する。
PaSBenchは416のマルチモーダルシナリオを通じてこの機能を評価する。
Gemini-2.5-proのようなトップパフォーマーは、71%のイメージと64%のテキスト精度を達成したが、繰り返しトライアルで45-55%のリスクを逃した。
論文 参考訳(メタデータ) (2025-05-23T04:28:47Z) - Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Uncertainty-boosted Robust Video Activity Anticipation [72.14155465769201]
ビデオアクティビティの予測は、ロボットビジョンから自動運転まで幅広い応用可能性を受け入れることで、将来何が起こるかを予測することを目的としている。
近年の進展にもかかわらず、コンテンツ進化過程やイベントラベルの動的相関として反映されたデータ不確実性問題は、何らかの形で無視されている。
本研究では,予測結果の信頼性を示す不確実な値を生成する,不確実性を考慮した頑健なビデオアクティビティ予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T12:31:38Z) - ADoPT: LiDAR Spoofing Attack Detection Based on Point-Level Temporal
Consistency [11.160041268858773]
ディープニューラルネットワーク(DNN)は、自動運転車(AV)のためのLiDARベースの知覚システムにますます統合されている
我々は,攻撃者がLiDARデータに偽のオブジェクトを注入し,その環境を誤解釈して誤った判断を下すという,LiDAR偽造攻撃の課題に対処することを目指している。
ADoPT (Anomaly Detection based on Point-level Temporal consistency) は、連続するフレーム間の時間的一貫性を定量的に測定し、ポイントクラスタのコヒーレンシーに基づいて異常物体を同定する。
nuScenesデータセットを用いた評価では、アルゴリズムは様々なLiDARスプーフィング攻撃に対して効果的に対応し、低(低)を実現している。
論文 参考訳(メタデータ) (2023-10-23T02:31:31Z) - Unsupervised Self-Driving Attention Prediction via Uncertainty Mining
and Knowledge Embedding [51.8579160500354]
本研究では、不確実性モデリングと知識統合の駆動による自動運転の注意を予測できる教師なし手法を提案する。
結果は、完全に教師された最先端のアプローチと比較して、同等またはさらに印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-17T00:28:33Z) - Fast nonlinear risk assessment for autonomous vehicles using learned
conditional probabilistic models of agent futures [19.247932561037487]
本稿では,自動運転車の軌道のリスクを評価するために,高速な非サンプリング方式を提案する。
提案手法はガウス混合モデルと非ガウス混合モデルの両方を含む不確実な予測に対する幅広い表現に対処する。
我々は不確実な位置のモーメントの正確な時間進化を管理する決定論的線形力学系を構築する。
論文 参考訳(メタデータ) (2021-09-21T05:55:39Z) - Fast Risk Assessment for Autonomous Vehicles Using Learned Models of
Agent Futures [10.358493658420173]
本稿では,自動走行車における軌道のリスクを評価するために,高速な非サンプリング方式を提案する。
提案手法はガウス混合モデルと非ガウス混合モデルの両方を含む不確実な予測に対する幅広い表現に対処する。
提案手法は、ArgoverseデータセットとCARLAデータセットでトレーニングされたプロパゲートからの現実的な予測に基づいて実証される。
論文 参考訳(メタデータ) (2020-05-27T16:16:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。