論文の概要: DriveSafe: A Hierarchical Risk Taxonomy for Safety-Critical LLM-Based Driving Assistants
- arxiv url: http://arxiv.org/abs/2601.12138v1
- Date: Sat, 17 Jan 2026 18:50:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.479753
- Title: DriveSafe: A Hierarchical Risk Taxonomy for Safety-Critical LLM-Based Driving Assistants
- Title(参考訳): DriveSafe: LLMベースの運転支援システムのための階層型リスク分類
- Authors: Abhishek Kumar, Riya Tapwal, Carsten Maple,
- Abstract要約: 運転アシスタントの安全クリティカルな障害モードを特徴付けるために,階層的で4段階のリスク分類であるDriveSafeを紹介した。
構築したプロンプトの安全性と現実性を検証するため, 広く展開されている6つのLCM間での拒絶動作を評価した。
分析の結果,評価されたモデルでは,安全でない,あるいは不適合な運転関連クエリを適切に拒否できない場合が多いことがわかった。
- 参考スコア(独自算出の注目度): 19.04544141221272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly integrated into vehicle-based digital assistants, where unsafe, ambiguous, or legally incorrect responses can lead to serious safety, ethical, and regulatory consequences. Despite growing interest in LLM safety, existing taxonomies and evaluation frameworks remain largely general-purpose and fail to capture the domain-specific risks inherent to real-world driving scenarios. In this paper, we introduce DriveSafe, a hierarchical, four-level risk taxonomy designed to systematically characterize safety-critical failure modes of LLM-based driving assistants. The taxonomy comprises 129 fine-grained atomic risk categories spanning technical, legal, societal, and ethical dimensions, grounded in real-world driving regulations and safety principles and reviewed by domain experts. To validate the safety relevance and realism of the constructed prompts, we evaluate their refusal behavior across six widely deployed LLMs. Our analysis shows that the evaluated models often fail to appropriately refuse unsafe or non-compliant driving-related queries, underscoring the limitations of general-purpose safety alignment in driving contexts.
- Abstract(参考訳): 大型言語モデル(LLM)は、安全でない、曖昧な、あるいは法的に不正な応答が深刻な安全性、倫理的、規制上の結果をもたらす、車両ベースのデジタルアシスタントにますます統合されている。
LLMの安全性への関心が高まりつつあるにもかかわらず、既存の分類学と評価フレームワークは依然として大半が汎用的であり、現実世界の運転シナリオに固有のドメイン固有のリスクを捉えていない。
本稿では、LCMベースの運転支援システムの安全クリティカル障害モードを体系的に特徴付けるために設計された階層的4段階のリスク分類であるDriveSafeを紹介する。
分類学は、技術的、法的、社会的、倫理的な側面にまたがる129の微粒な原子リスクカテゴリーで構成され、現実世界の運転規則と安全原則に基づいており、ドメインの専門家によってレビューされている。
構築したプロンプトの安全性と現実性を検証するため, 広く展開されている6つのLCM間での拒絶動作を評価した。
評価モデルでは,運転状況における汎用的安全アライメントの限界を考慮し,安全でない運転関連クエリを適切に拒否できない場合が多い。
関連論文リスト
- Controllable risk scenario generation from human crash data for autonomous vehicle testing [13.3074428571403]
制御可能なリスクエージェント生成(CRAG)は、支配的な名目的行動と稀な安全クリティカルな行動のモデリングを統合するために設計されたフレームワークである。
CRAGは、正常およびリスク関連挙動を歪め、限られたクラッシュデータの効率的な利用を可能にする構造付き潜在空間を構築する。
論文 参考訳(メタデータ) (2025-11-27T04:53:18Z) - SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization [79.14563283347773]
マルチモーダルな大言語モデル (MLLM) は印象的な推論と命令追従能力を示した。
クロスモーダル結合は、個々の入力が良性である場合でも、安全でないセマンティクスを生成する。
自己回帰型マルチモーダル安全アライメントフレームワークであるSafeGRPOを提案する。
論文 参考訳(メタデータ) (2025-11-17T05:09:49Z) - DeepKnown-Guard: A Proprietary Model-Based Safety Response Framework for AI Agents [12.054307827384415]
大きな言語モデル(LLM)はますます顕著になり、重要なドメインへの信頼性の高いデプロイメントを厳しく制限しています。
本稿では,LLMを入力レベルと出力レベルの両方で保護する新しい安全応答フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T03:04:35Z) - VL-SAFE: Vision-Language Guided Safety-Aware Reinforcement Learning with World Models for Autonomous Driving [1.9242820889313577]
強化学習(RL)に基づく自律運転政策学習は、限界に直面している。
RLはしばしば複雑な運転コンテキストにおける「安全」の意味の真の意味をつかむのに失敗する。
本稿では,VLM(Vision-Language Model)-as-as-safety-guidanceパラダイムを用いた世界モデルベースの安全なRLフレームワークであるVL-SAFEを提案する。
論文 参考訳(メタデータ) (2025-05-22T08:29:59Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。