論文の概要: iSafetyBench: A video-language benchmark for safety in industrial environment
- arxiv url: http://arxiv.org/abs/2508.00399v1
- Date: Fri, 01 Aug 2025 07:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.783102
- Title: iSafetyBench: A video-language benchmark for safety in industrial environment
- Title(参考訳): iSafetyBench:産業環境における安全のためのビデオ言語ベンチマーク
- Authors: Raiyaan Abdullah, Yogesh Singh Rawat, Shruti Vyas,
- Abstract要約: iSafetyBenchは、産業環境でのモデルパフォーマンスを評価するために設計された新しいビデオ言語ベンチマークである。
iSafetyBenchは、現実世界の産業環境から得られた1100本のビデオクリップで構成されている。
ゼロショット条件下で8つの最先端ビデオ言語モデルを評価する。
- 参考スコア(独自算出の注目度): 6.697702130929693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models (VLMs) have enabled impressive generalization across diverse video understanding tasks under zero-shot settings. However, their capabilities in high-stakes industrial domains-where recognizing both routine operations and safety-critical anomalies is essential-remain largely underexplored. To address this gap, we introduce iSafetyBench, a new video-language benchmark specifically designed to evaluate model performance in industrial environments across both normal and hazardous scenarios. iSafetyBench comprises 1,100 video clips sourced from real-world industrial settings, annotated with open-vocabulary, multi-label action tags spanning 98 routine and 67 hazardous action categories. Each clip is paired with multiple-choice questions for both single-label and multi-label evaluation, enabling fine-grained assessment of VLMs in both standard and safety-critical contexts. We evaluate eight state-of-the-art video-language models under zero-shot conditions. Despite their strong performance on existing video benchmarks, these models struggle with iSafetyBench-particularly in recognizing hazardous activities and in multi-label scenarios. Our results reveal significant performance gaps, underscoring the need for more robust, safety-aware multimodal models for industrial applications. iSafetyBench provides a first-of-its-kind testbed to drive progress in this direction. The dataset is available at: https://github.com/raiyaan-abdullah/iSafety-Bench.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、ゼロショット設定下での多様なビデオ理解タスクにおける印象的な一般化を可能にしている。
しかし、ルーチン操作と安全クリティカルな異常の両方を認識する産業領域におけるそれらの能力は、主に過小評価されている。
このギャップに対処するために、iSafetyBenchを紹介します。これは、通常のシナリオと危険なシナリオの両方にわたる産業環境におけるモデルパフォーマンスを評価するために設計された、新しいビデオベンチマークです。
iSafetyBenchは、現実世界の産業環境から得られた1,100本のビデオクリップで構成され、オープン語彙、98のルーチンと67の有害なアクションカテゴリにまたがるマルチラベルアクションタグが注釈付けされている。
各クリップは、シングルラベルとマルチラベルの評価の両方に対して、複数選択の質問とペアリングされ、標準および安全クリティカルなコンテキストにおいて、VLMのきめ細かい評価を可能にする。
ゼロショット条件下で8つの最先端ビデオ言語モデルを評価する。
既存のビデオベンチマークのパフォーマンスは高いが、これらのモデルはiSafetyBench-特に有害なアクティビティとマルチラベルシナリオの認識に苦戦している。
以上の結果から,産業用アプリケーションにおいて,より堅牢で安全性に配慮したマルチモーダルモデルの必要性が指摘された。
iSafetyBenchは、この方向に進むための第一級のテストベッドを提供する。
データセットは、https://github.com/raiyaan-abdullah/iSafety-Bench.comで公開されている。
関連論文リスト
- SmartHome-Bench: A Comprehensive Benchmark for Video Anomaly Detection in Smart Homes Using Multi-Modal Large Language Models [16.459243307731118]
ビデオ異常検出(VAD)は、様々な環境にまたがる異常な事象を特定することによって、安全性と安全性を高めるために不可欠である。
既存のVADベンチマークは主に汎用シナリオ用に設計されている。
スマートホームシナリオでVADを評価するために特別に設計された最初の総合ベンチマークであるSmartHome-Benchを紹介する。
論文 参考訳(メタデータ) (2025-06-15T23:20:08Z) - Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.75428247670665]
この研究では、真理、安全性、公正、プライバシの5次元にわたるビデオLLMを評価するベンチマークを紹介します。
現状の映像LLMを23本評価したところ,動的シーン理解とクロスモーダルレジリエンスに大きな限界が認められた。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。
私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。
我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - SafeVid: Toward Safety Aligned Video Large Multimodal Models [60.14535756294228]
ビデオ大マルチモーダルモデル(VLMM)にビデオ特化安全原則を取り入れたフレームワークであるSafeVidを紹介する。
SafeVidは、詳細なテキストによるビデオ記述を解釈ブリッジとして使用し、ルール駆動の安全推論を容易にする。
SafeVid-350KとのアライメントはVLMMの安全性を大幅に向上させ、LLaVA-NeXT-Videoのようなモデルも大幅に改善された。
論文 参考訳(メタデータ) (2025-05-17T09:21:33Z) - Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs [51.90597846977058]
Video-SafetyBenchは、ビデオテキスト攻撃下でのLVLMの安全性を評価するために設計された最初のベンチマークである。
ビデオテキストのペアは2,264で、48のきめ細かいアンセーフなカテゴリにまたがっている。
安全性評価のためのセマンティックなビデオを生成するために,ビデオ意味論を主題画像とモーションテキストに分解する制御可能なパイプラインを設計する。
論文 参考訳(メタデータ) (2025-05-17T05:06:38Z) - Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。