Fugu-MT 論文翻訳(概要): Better Safe Than Sorry? Overreaction Problem of Vision Language Models in Visual Emergency Recognition

論文の概要: Better Safe Than Sorry? Overreaction Problem of Vision Language Models in Visual Emergency Recognition

arxiv url: http://arxiv.org/abs/2505.15367v1
Date: Wed, 21 May 2025 10:57:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:59.516038
Title: Better Safe Than Sorry? Overreaction Problem of Vision Language Models in Visual Emergency Recognition
Title（参考訳）: 悲しみより安全か?視覚的緊急認識における視覚言語モデルの過剰反応問題
Authors: Dasol Choi, Seunghyun Lee, Youngsook Song,
Abstract要約: 200画像(100対の対照的なペア)の診断ベンチマークであるVERIを導入する。各緊急シーンは、多段階の人間の検証と反復的な改善によって、視覚的に類似しているが安全なものとマッチングされる。モデルは実際の緊急事態を特定するのに優れているが、誤報の発覚率に悩まされている。
参考スコア（独自算出の注目度）: 10.867962375420417
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vision-Language Models (VLMs) have demonstrated impressive capabilities in understanding visual content, but their reliability in safety-critical contexts remains under-explored. We introduce VERI (Visual Emergency Recognition Dataset), a carefully designed diagnostic benchmark of 200 images (100 contrastive pairs). Each emergency scene is matched with a visually similar but safe counterpart through multi-stage human verification and iterative refinement. Using a two-stage protocol - risk identification and emergency response - we evaluate 14 VLMs (2B-124B parameters) across medical emergencies, accidents, and natural disasters. Our analysis reveals a systematic overreaction problem: models excel at identifying real emergencies (70-100 percent success rate) but suffer from an alarming rate of false alarms, misidentifying 31-96 percent of safe situations as dangerous, with 10 scenarios failed by all models regardless of scale. This "better-safe-than-sorry" bias manifests primarily through contextual overinterpretation (88-93 percent of errors), challenging VLMs' reliability for safety applications. These findings highlight persistent limitations that are not resolved by increasing model scale, motivating targeted approaches for improving contextual safety assessment in visually misleading scenarios.
Abstract（参考訳）: VLM(Vision-Language Models)は、視覚的コンテンツを理解するための優れた能力を示してきたが、安全クリティカルな文脈における信頼性はいまだ探索されていない。我々は200の画像(100対のコントラッシブペア)を慎重に設計した診断ベンチマークであるVERI(Visual Emergency Recognition Dataset)を紹介する。各緊急シーンは、多段階の人間の検証と反復的な改善によって、視覚的に類似しているが安全なものとマッチングされる。リスク識別と緊急対応という2段階のプロトコルを用いて、医療現場、事故、自然災害の14のVLM(2B-124Bパラメータ)を評価した。モデルが実際の緊急事態(70-100%の成功率)を特定するのに優れるが、誤報の危険が警告され、安全状況の31-96パーセントが危険であると誤認され、スケールに関係なく10のシナリオが失敗する。この"Better-safe-than-sorry"バイアスは、主にコンテキストオーバー解釈(エラーの88～93パーセント)を通じて現れ、安全アプリケーションに対するVLMの信頼性に挑戦する。これらの知見は、モデルスケールの増大によって解決されない永続的な制限を強調し、視覚的に誤解を招くシナリオにおける文脈的安全性アセスメントを改善するための目標とするアプローチを動機付けている。

関連論文リスト

Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。 LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文参考訳（メタデータ） (2025-07-30T08:44:22Z)
Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文参考訳（メタデータ） (2025-06-26T02:28:58Z)
Visual-Semantic Knowledge Conflicts in Operating Rooms: Synthetic Data Curation for Surgical Risk Perception in Multimodal Large Language Models [7.916129615051081]
拡散モデルにより生成された34,000以上の合成画像からなるデータセットを提案する。データセットには、バリデーションのためのゴールドスタンダード参照として機能する214の人間アノテーション付きイメージが含まれている。
論文参考訳（メタデータ） (2025-06-25T07:06:29Z)
HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T07:26:34Z)
OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models [73.6716695218951]
Over-refusalは$textitover-refusal$として知られる現象で、T2Iモデルの実用性を減らす。我々は,OVERT(textbfOVE$r-$textbfR$efusal evaluation on $textbfT$ext-to-image model)を提案する。
論文参考訳（メタデータ） (2025-05-27T15:42:46Z)
FalseReject: A Resource for Improving Contextual Safety and Mitigating Over-Refusals in LLMs via Structured Reasoning [12.467239356591238]
FalseRejectは、44の安全関連カテゴリにまたがる構造化された応答を伴う16kの一見有毒なクエリを含む包括的なリソースである。本稿では,多種多様な複雑なプロンプトを生成するグラフインフォームド・逆多エージェントインタラクション・フレームワークを提案する。 FalseRejectによる教師付き微調整は、全体的な安全性や汎用言語能力を損なうことなく、不要な拒絶を著しく低減することを示す。
論文参考訳（メタデータ） (2025-05-12T20:45:25Z)
Context-Awareness and Interpretability of Rare Occurrences for Discovery and Formalization of Critical Failure Modes [3.140125449151061]
視覚システムは、監視、法執行、交通といった重要な領域にますます配備されている。これらの課題に対処するために,レアオカレンス(CAIRO)の文脈認識と解釈可能性を導入する。 CAIROは、AIブラックボックスモデルにおける誤検出、敵攻撃、幻覚から生じる臨界性のテストと評価のために、ループ内の人間にインセンティブを与える。
論文参考訳（メタデータ） (2025-04-18T17:12:37Z)
SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。特定のシナリオは、25倍の攻撃率を被る。 MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文参考訳（メタデータ） (2025-04-09T06:53:23Z)
REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。 REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文参考訳（メタデータ） (2025-03-20T07:54:35Z)
Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。 MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。 MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文参考訳（メタデータ） (2025-02-16T16:12:40Z)
Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2025-01-30T17:59:45Z)
Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文参考訳（メタデータ） (2024-11-27T02:40:29Z)
High-Dimensional Fault Tolerance Testing of Highly Automated Vehicles Based on Low-Rank Models [39.139025989575686]
HAVの安全性を評価するために, フォールトインジェクション(FI)試験を実施している。テストケースを完全にカバーするためには、さまざまな駆動シナリオと障害設定を検討する必要がある。低ランクスムースネス正規化行列因子化フレームワークにおけるFI試験の高速化を提案する。
論文参考訳（メタデータ） (2024-07-28T14:27:13Z)
ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文参考訳（メタデータ） (2023-10-14T17:10:28Z)
Building Safe and Reliable AI systems for Safety Critical Tasks with Vision-Language Processing [1.2183405753834557]
現在のAIアルゴリズムでは、障害検出の一般的な原因を特定できない。予測の質を定量化するためには、追加のテクニックが必要である。この論文は、分類、画像キャプション、視覚質問応答といったタスクのための視覚言語データ処理に焦点を当てる。
論文参考訳（メタデータ） (2023-08-06T18:05:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。