論文の概要: DriveSafe: A Framework for Risk Detection and Safety Suggestions in Driving Scenarios
- arxiv url: http://arxiv.org/abs/2605.16892v1
- Date: Sat, 16 May 2026 09:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.222053
- Title: DriveSafe: A Framework for Risk Detection and Safety Suggestions in Driving Scenarios
- Title(参考訳): DriveSafe: 運転シナリオにおけるリスク検出と安全性提案のためのフレームワーク
- Authors: Sainithin Artham, Shankar Gangisetty, Avijit Dasgupta, C. V. Jawahar,
- Abstract要約: DriveSafeは、リスクを意識したシーン理解のためのフレームワークである。
明示的な言語ベースのシーン表現にリスクアセスメントを条件付けることで、DriveSafeは大幅に向上する。
- 参考スコア(独自算出の注目度): 16.773557958751827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comprehensive situational awareness is essential for autonomous vehicles operating in safety-critical environments, as it enables the identification and mitigation of potential risks. Although recent Multimodal Large Language Models (MLLMs) have shown promise on general vision-language tasks, our findings indicate that zero-shot MLLMs still underperform compared to domain-specific methods in fine-grained, spatially grounded risk assessment. To address this gap, we propose DriveSafe, a framework for risk-aware scene understanding that leverages structured natural language descriptions. Specifically, our method first generates spatially grounded captions enriched with multimodal context, including motion, spatial, and depth cues. These captions are then used for downstream risk assessment, explicitly identifying hazardous objects, their locations, and the unsafe behaviors they imply, followed by actionable safety suggestions. To further improve performance, we employ caption-risk pairings to fine-tune a lightweight adapter module, efficiently injecting domain-specific knowledge into the base LLM. By conditioning risk assessment on explicit language-based scene representations, DriveSafe achieves significant gains over both zero-shot MLLMs and prior domain-specific baselines. Exhaustive experiments on the DRAMA benchmark demonstrate state-of-the-art performance, while ablation studies validate the effectiveness of our key design choices. Project page: https://cvit.iiit.ac.in/ research/projects/cvit-projects/drivesafe
- Abstract(参考訳): 潜在的なリスクの識別と緩和を可能にするため、安全クリティカルな環境で運転する自動運転車には、包括的状況認識が不可欠である。
近年のMLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて有望であるが、ゼロショットMLLMは、きめ細かな空間的リスクアセスメントにおいて、ドメイン固有の手法に比べてまだ性能が劣っていることを示す。
このギャップに対処するために,構造化自然言語記述を活用するリスク対応シーン理解フレームワークであるDriveSafeを提案する。
具体的には,まず,移動,空間,深度といったマルチモーダルな文脈に富んだ空間的接地キャプションを生成する。
これらのキャプションは、ダウンストリームのリスクアセスメントに使用され、危険物、その位置、そしてそれらが示唆する安全でない行動を明確に特定する。
さらに性能向上のために,我々はキャプションリスクペアリングを用いて,軽量アダプタモジュールを微調整し,ドメイン固有の知識をベースLSMに効率的に注入する。
明示的な言語に基づくシーン表現のリスクアセスメントを条件にすることで、DriveSafeはゼロショットMLLMと以前のドメイン固有のベースラインの両方よりも大幅に向上する。
DRAMAベンチマークの試験実験では、最先端の性能が実証され、アブレーション研究では、重要な設計選択の有効性が検証された。
プロジェクトページ: https://cvit.iiit.ac.in/ research/projects/cvit-projects/drivesafe
関連論文リスト
- HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models [87.35765363039638]
本研究では,視覚・言語・アクションモデルのセマンティック安全性を評価するためのベンチマークであるHazardArenaを紹介する。
安全シナリオに特化してトレーニングされたVLAモデルは、対応する安全でないシナリオで評価された場合、安全に動作しないことが多い。
本研究では,セマンティック属性や視覚言語判断を用いた行動実行を制約する,トレーニングフリーの安全オプション層を提案する。
論文 参考訳(メタデータ) (2026-04-14T08:32:02Z) - SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues [50.928203120795786]
本研究では,視覚言語モデルにおけるマルチモーダル安全性の挙動を,単純な意味的手がかりによって評価できるかどうかを考察する。
シーン内容を変更することなく、テキスト、視覚、認知の介入を制御できるセマンティック・ステアリング・フレームワークを導入する。
論文 参考訳(メタデータ) (2026-03-19T16:18:00Z) - Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility [26.564913442069866]
視覚言語モデル(VLM)は、大きな言語モデル(LLM)の推論能力を、モード間設定に拡張する。
既存の防衛は、安全性の微調整や攻撃的なトークン操作に頼っており、相当な訓練コストや性能の大幅な低下を招いている。
安全校正のための軽量かつトレーニング不要なフレームワークであるリスク意識注入(RAI)を提案する。
論文 参考訳(メタデータ) (2026-02-03T11:26:05Z) - Self-Aware Safety Augmentation: Leveraging Internal Semantic Understanding to Enhance Safety in Vision-Language Models [21.961325147038867]
大規模視覚言語モデル(LVLM)は、言語のみのバックボーンと比較して有害な入力に対して脆弱である。
我々はこれらの能力を、言語表現の安全性認識、意味理解、アライメントとして定義する。
これらの知見に触発され,従来の安全指向層に情報的意味表現を投影する技術である textbfSelf-Aware Safety Augmentation (SASA) を提案する。
論文 参考訳(メタデータ) (2025-07-29T09:48:57Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [51.49737867797442]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。