論文の概要: DRAMA-X: A Fine-grained Intent Prediction and Risk Reasoning Benchmark For Driving
- arxiv url: http://arxiv.org/abs/2506.17590v1
- Date: Sat, 21 Jun 2025 05:01:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.491225
- Title: DRAMA-X: A Fine-grained Intent Prediction and Risk Reasoning Benchmark For Driving
- Title(参考訳): DRAMA-X:運転の詳細なインテント予測とリスク推論ベンチマーク
- Authors: Mihir Godbole, Xiangbo Gao, Zhengzhong Tu,
- Abstract要約: 既存のベンチマークでは、安全クリティカルな状況下でのマルチクラスの意図予測は評価されていない。
DRAMAデータセットから構築した詳細なベンチマークであるDRAMA-Xを紹介する。
我々は,エゴ車の推論パイプラインを反映した軽量でトレーニング不要なフレームワークであるSGG-Intentを提案する。
- 参考スコア(独自算出の注目度): 5.362063089413001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the short-term motion of vulnerable road users (VRUs) like pedestrians and cyclists is critical for safe autonomous driving, especially in urban scenarios with ambiguous or high-risk behaviors. While vision-language models (VLMs) have enabled open-vocabulary perception, their utility for fine-grained intent reasoning remains underexplored. Notably, no existing benchmark evaluates multi-class intent prediction in safety-critical situations, To address this gap, we introduce DRAMA-X, a fine-grained benchmark constructed from the DRAMA dataset via an automated annotation pipeline. DRAMA-X contains 5,686 accident-prone frames labeled with object bounding boxes, a nine-class directional intent taxonomy, binary risk scores, expert-generated action suggestions for the ego vehicle, and descriptive motion summaries. These annotations enable a structured evaluation of four interrelated tasks central to autonomous decision-making: object detection, intent prediction, risk assessment, and action suggestion. As a reference baseline, we propose SGG-Intent, a lightweight, training-free framework that mirrors the ego vehicle's reasoning pipeline. It sequentially generates a scene graph from visual input using VLM-backed detectors, infers intent, assesses risk, and recommends an action using a compositional reasoning stage powered by a large language model. We evaluate a range of recent VLMs, comparing performance across all four DRAMA-X tasks. Our experiments demonstrate that scene-graph-based reasoning enhances intent prediction and risk assessment, especially when contextual cues are explicitly modeled.
- Abstract(参考訳): 歩行者やサイクリストのような脆弱な道路利用者(VRU)の短期的な動きを理解することは、特にあいまいな行動やリスクの高い都会のシナリオにおいて、安全な自動運転に不可欠である。
視覚言語モデル(VLM)は、オープン語彙認識を可能にする一方で、細粒度インテント推論のためのその有用性は未解明のままである。
このギャップに対処するために、DRAMAデータセットから自動アノテーションパイプラインを介して構築されたきめ細かいベンチマークであるDRAMA-Xを導入する。
DRAMA-Xは5,686個の事故発生フレームにオブジェクト境界ボックス、9クラス指向性分類、二進的リスクスコア、エゴ車両の専門家による行動提案、説明的な動作要約をラベル付けした。
これらのアノテーションは、オブジェクト検出、意図予測、リスク評価、行動提案という、自律的な意思決定の中心となる4つの相互関連タスクの構造化された評価を可能にする。
基準ベースラインとして,エゴ車の推論パイプラインを反映した軽量でトレーニング不要なフレームワークであるSGG-Intentを提案する。
VLM支援検出器を用いた視覚入力からシーングラフを逐次生成し、意図を推論し、リスクを評価し、大きな言語モデルによる合成推論段階を用いたアクションを推奨する。
我々は最近の4つのDRAMA-Xタスクのパフォーマンスを比較して、VLMの幅を評価した。
実験により,シーングラフに基づく推論は,特に文脈的手がかりが明示的にモデル化された場合,意図予測とリスク評価を促進することが示された。
関連論文リスト
- PADriver: Towards Personalized Autonomous Driving [27.96579880234604]
パーソナライズされた自律運転のための新しいクローズドループフレームワークPADriverを提案する。
マルチモーダル大言語モデル(MLLM)に基づいて構築されたPADriverは、ストリーミングフレームとパーソナライズされたテキストプロンプトを入力として取り込む。
本研究では,ハイウェイ-Envシミュレータに基づくPAD-Highwayというベンチマークを構築し,交通ルールの下での判定性能を総合的に評価する。
論文 参考訳(メタデータ) (2025-05-08T13:36:07Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - Zero-shot Hazard Identification in Autonomous Driving: A Case Study on the COOOL Benchmark [0.0]
本稿では,自動運転におけるラベル外ハザードの検出と分類のための新しいベンチマークであるCOOOLコンペティションについて述べる。
本手法は, 運転者反応検出, (ii) 危険物識別, (iii) 危険キャプションの3つのタスクにまたがる多様な手法を統合する。
提案されたパイプラインはベースライン手法を大きなマージンで上回り、相対誤差を33%減らし、32チームからなる最終リーダーボードで2位となった。
論文 参考訳(メタデータ) (2024-12-27T22:43:46Z) - Realistic Safety-critical Scenarios Search for Autonomous Driving System
via Behavior Tree [8.286351881735191]
本研究では,行動木に基づくテストフレームワークであるMatrix-Fuzzerを提案し,現実的な安全クリティカルなテストシナリオを自動的に生成する。
提案手法では, 安全クリティカルシナリオのタイプが最も多いが, ベースラインアルゴリズムと比較して, 全体の30%程度しか生成できない。
論文 参考訳(メタデータ) (2023-05-11T06:53:03Z) - DeepAccident: A Motion and Accident Prediction Benchmark for V2X
Autonomous Driving [76.29141888408265]
本研究では,現実の運転において頻繁に発生する多様な事故シナリオを含む大規模データセットを提案する。
提案したDeepAccidentデータセットには57Kの注釈付きフレームと285Kの注釈付きサンプルが含まれており、これは大規模なnuScenesデータセットの約7倍である。
論文 参考訳(メタデータ) (2023-04-03T17:37:00Z) - Intersection Warning System for Occlusion Risks using Relational Local
Dynamic Maps [0.0]
本研究は,センサカバレッジの制限による可観測性に制限のある交通シナリオにおけるリスク評価の課題に対処する。
視界の特定には、幾何学的情報と道路インフラを提供する局所的ダイナミックマップにレイキャスティングを用いる。
結果として生じるリスク指標は、ドライバーの現在の行動を評価し、重大な状況でドライバーに警告し、安全に行動する方法や安全な軌道を計画する方法を提案するために使用される。
論文 参考訳(メタデータ) (2023-03-13T16:01:55Z) - DRAMA: Joint Risk Localization and Captioning in Driving [23.091433343825727]
本稿では,運転場面における共同リスクローカライゼーションの新たな研究方向と,その自然言語記述としてのリスク説明を提案する。
標準ベンチマークの欠如により、我々は大規模データセットDRAMA (Driving Risk Assessment Mechanism with A Casting Module) を収集した。
我々のデータセットは、視覚的キャプションの目標を達成するために、関連する重要なオブジェクトによるリスクの駆動に関するビデオおよびオブジェクトレベルの質問に適合する。
論文 参考訳(メタデータ) (2022-09-22T03:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。