論文の概要: WaymoQA: A Multi-View Visual Question Answering Dataset for Safety-Critical Reasoning in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.20022v1
- Date: Tue, 25 Nov 2025 07:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.343821
- Title: WaymoQA: A Multi-View Visual Question Answering Dataset for Safety-Critical Reasoning in Autonomous Driving
- Title(参考訳): WaymoQA: 自動運転における安全批判推論のための多視点視覚質問応答データセット
- Authors: Seungjun Yu, Seonho Lee, Namho Kim, Jaeyo Shin, Junsung Park, Wonjeong Ryu, Raehyuk Jung, Hyunjung Shim,
- Abstract要約: 安全クリティカルなシナリオにおける高レベルの推論は、依然として大きな課題である。
我々は、この課題に対処するために、マルチビューインプットを活用する新しいタスクとして安全批判推論を定義する。
複雑でリスクの高い運転シナリオをカバーする35,000の人手による質問応答ペアのデータセットであるQAを紹介する。
- 参考スコア(独自算出の注目度): 33.850069933308994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in multimodal large language models (MLLMs) have shown strong understanding of driving scenes, drawing interest in their application to autonomous driving. However, high-level reasoning in safety-critical scenarios, where avoiding one traffic risk can create another, remains a major challenge. Such reasoning is often infeasible with only a single front view and requires a comprehensive view of the environment, which we achieve through multi-view inputs. We define Safety-Critical Reasoning as a new task that leverages multi-view inputs to address this challenge. Then, we distill Safety-Critical Reasoning into two stages: first resolve the immediate risk, then mitigate the decision-induced downstream risks. To support this, we introduce WaymoQA, a dataset of 35,000 human-annotated question-answer pairs covering complex, high-risk driving scenarios. The dataset includes multiple-choice and open-ended formats across both image and video modalities. Experiments reveal that existing MLLMs underperform in safety-critical scenarios compared to normal scenes, but fine-tuning with WaymoQA significantly improves their reasoning ability, highlighting the effectiveness of our dataset in developing safer and more reasoning-capable driving agents.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、運転シーンに対する深い理解を示し、その自律運転への応用への関心を喚起している。
しかし、一つの交通リスクを避けるような安全クリティカルなシナリオにおける高いレベルの推論は、依然として大きな課題である。
このような推論は、単一のフロントビューだけでは実現不可能であり、マルチビューインプットによって実現される環境の包括的なビューを必要とすることが多い。
我々は、この課題に対処するために、マルチビューインプットを活用する新しいタスクとして安全批判推論を定義する。
次に, 安全批判推論を, 即時リスクを解消し, 意思決定による下流リスクを軽減する2段階に分割する。
これをサポートするために、複雑な高リスク運転シナリオをカバーする35,000の人間注釈付き質問応答ペアのデータセットであるWaymoQAを紹介した。
データセットには、画像とビデオの両方のモダリティにまたがって、複数の選択とオープンなフォーマットが含まれている。
実験によると、既存のMLLMは通常のシーンに比べて安全クリティカルなシナリオでは不十分だが、WaymoQAによる微調整は推論能力を大幅に改善し、より安全で推論可能な運転エージェントを開発する上でのデータセットの有効性を強調している。
関連論文リスト
- Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - Multimodal Large Language Models for Enhanced Traffic Safety: A Comprehensive Review and Future Trends [5.233512464561313]
従来のアドバンストドライバー支援システムは、しばしば動的な現実のシナリオで苦労する。
本稿では,これらの制約に対処する上で,MLLM(Multimodal Large Language Models)の変換可能性について概説する。
MLLMを次世代の交通安全システムの基礎として位置づけることで、この分野に革命をもたらす可能性を示している。
論文 参考訳(メタデータ) (2025-04-21T18:48:35Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - Is it safe to cross? Interpretable Risk Assessment with GPT-4V for Safety-Aware Street Crossing [8.468153670795443]
本稿では,大規模なマルチモーダルモデル(LMM)を活用し,複雑な交差点シーンを解釈する革新的な手法を提案する。
安全スコアとシーン記述を自然言語で生成することにより,視覚障害者の安全意思決定を支援する。
論文 参考訳(メタデータ) (2024-02-09T21:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。