論文の概要: Better Safe Than Sorry? Overreaction Problem of Vision Language Models in Visual Emergency Recognition
- arxiv url: http://arxiv.org/abs/2505.15367v3
- Date: Sat, 27 Sep 2025 05:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.95298
- Title: Better Safe Than Sorry? Overreaction Problem of Vision Language Models in Visual Emergency Recognition
- Title(参考訳): 悲しみより安全か?視覚的緊急認識における視覚言語モデルの過剰反応問題
- Authors: Dasol Choi, Seunghyun Lee, Youngsook Song,
- Abstract要約: VLM(Vision-Language Models)は、視覚的コンテンツを解釈する能力を示しているが、安全クリティカルなシナリオにおける信頼性はまだ十分に調査されていない。
本稿では,200枚の合成画像(100対)と50枚の実世界の画像(25対)からなる診断ベンチマークVERIを紹介する。
各緊急シーンは、人間の検証によって視覚的に似ているが安全なものとペアリングされる。
- 参考スコア(独自算出の注目度): 12.054081112688074
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language Models (VLMs) have shown capabilities in interpreting visual content, but their reliability in safety-critical scenarios remains insufficiently explored. We introduce VERI, a diagnostic benchmark comprising 200 synthetic images (100 contrastive pairs) and an additional 50 real-world images (25 pairs) for validation. Each emergency scene is paired with a visually similar but safe counterpart through human verification. Using a two-stage evaluation protocol (risk identification and emergency response), we assess 17 VLMs across medical emergencies, accidents, and natural disasters. Our analysis reveals an "overreaction problem": models achieve high recall (70-100%) but suffer from low precision, misclassifying 31-96% of safe situations as dangerous. Seven safe scenarios were universally misclassified by all models. This "better-safe-than-sorry" bias stems from contextual overinterpretation (88-98% of errors). Both synthetic and real-world datasets confirm these systematic patterns, challenging VLM reliability in safety-critical applications. Addressing this requires enhanced contextual reasoning in ambiguous visual situations.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的コンテンツを解釈する能力を示しているが、安全クリティカルなシナリオにおける信頼性はまだ十分に調査されていない。
本稿では,200枚の合成画像(100対)と50枚の実世界の画像(25対)からなる診断ベンチマークVERIを紹介する。
各緊急シーンは、人間の検証によって視覚的に似ているが安全なものとペアリングされる。
リスク識別と緊急応答の2段階評価プロトコルを用いて,医療現場,事故,自然災害の17のVLMを評価する。
モデルは高いリコール(70-100%)を達成するが、精度は低く、安全な状況の31-96%を危険と誤分類している。
7つの安全なシナリオは、すべてのモデルによって普遍的に誤って分類された。
この"Better-safe-than-sorry"バイアスは、文脈的過大解釈(エラーの88~98%)に由来する。
合成データセットと実世界のデータセットの両方がこれらの体系的なパターンを確認し、安全クリティカルなアプリケーションにおいてVLMの信頼性に挑戦する。
これに対応するには、曖昧な視覚的状況における文脈推論の強化が必要である。
関連論文リスト
- Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z) - Visual-Semantic Knowledge Conflicts in Operating Rooms: Synthetic Data Curation for Surgical Risk Perception in Multimodal Large Language Models [7.916129615051081]
拡散モデルにより生成された34,000以上の合成画像からなるデータセットを提案する。
データセットには、バリデーションのためのゴールドスタンダード参照として機能する214の人間アノテーション付きイメージが含まれている。
論文 参考訳(メタデータ) (2025-06-25T07:06:29Z) - HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。
私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。
我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models [73.6716695218951]
Over-refusalは$textitover-refusal$として知られる現象で、T2Iモデルの実用性を減らす。
我々は,OVERT(textbfOVE$r-$textbfR$efusal evaluation on $textbfT$ext-to-image model)を提案する。
論文 参考訳(メタデータ) (2025-05-27T15:42:46Z) - FalseReject: A Resource for Improving Contextual Safety and Mitigating Over-Refusals in LLMs via Structured Reasoning [12.467239356591238]
FalseRejectは、44の安全関連カテゴリにまたがる構造化された応答を伴う16kの一見有毒なクエリを含む包括的なリソースである。
本稿では,多種多様な複雑なプロンプトを生成するグラフインフォームド・逆多エージェントインタラクション・フレームワークを提案する。
FalseRejectによる教師付き微調整は、全体的な安全性や汎用言語能力を損なうことなく、不要な拒絶を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-12T20:45:25Z) - Context-Awareness and Interpretability of Rare Occurrences for Discovery and Formalization of Critical Failure Modes [3.140125449151061]
視覚システムは、監視、法執行、交通といった重要な領域にますます配備されている。
これらの課題に対処するために,レアオカレンス(CAIRO)の文脈認識と解釈可能性を導入する。
CAIROは、AIブラックボックスモデルにおける誤検出、敵攻撃、幻覚から生じる臨界性のテストと評価のために、ループ内の人間にインセンティブを与える。
論文 参考訳(メタデータ) (2025-04-18T17:12:37Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - High-Dimensional Fault Tolerance Testing of Highly Automated Vehicles Based on Low-Rank Models [39.139025989575686]
HAVの安全性を評価するために, フォールトインジェクション(FI)試験を実施している。
テストケースを完全にカバーするためには、さまざまな駆動シナリオと障害設定を検討する必要がある。
低ランクスムースネス正規化行列因子化フレームワークにおけるFI試験の高速化を提案する。
論文 参考訳(メタデータ) (2024-07-28T14:27:13Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Building Safe and Reliable AI systems for Safety Critical Tasks with
Vision-Language Processing [1.2183405753834557]
現在のAIアルゴリズムでは、障害検出の一般的な原因を特定できない。
予測の質を定量化するためには、追加のテクニックが必要である。
この論文は、分類、画像キャプション、視覚質問応答といったタスクのための視覚言語データ処理に焦点を当てる。
論文 参考訳(メタデータ) (2023-08-06T18:05:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。