論文の概要: HomeSafeBench: A Benchmark for Embodied Vision-Language Models in Free-Exploration Home Safety Inspection
- arxiv url: http://arxiv.org/abs/2509.23690v1
- Date: Sun, 28 Sep 2025 07:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.381629
- Title: HomeSafeBench: A Benchmark for Embodied Vision-Language Models in Free-Exploration Home Safety Inspection
- Title(参考訳): HomeSafeBench: 自由探索型ホームセーフティ検査における身体的視覚ランゲージモデルのベンチマーク
- Authors: Siyuan Gao, Jiashu Yao, Haoyu Wen, Yuhang Guo, Zeming Liu, Heyan Huang,
- Abstract要約: 身体的エージェントは、家庭環境における安全上の危険を識別し報告することができる。
既存のベンチマークには2つの重要な制限がある。
HomeSafeBenchは、一般的な5つのホームセーフティーハザードをカバーする12,900のデータポイントを持つベンチマークである。
- 参考スコア(独自算出の注目度): 45.2338049870908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied agents can identify and report safety hazards in the home environments. Accurately evaluating their capabilities in home safety inspection tasks is curcial, but existing benchmarks suffer from two key limitations. First, they oversimplify safety inspection tasks by using textual descriptions of the environment instead of direct visual information, which hinders the accurate evaluation of embodied agents based on Vision-Language Models (VLMs). Second, they use a single, static viewpoint for environmental observation, which restricts the agents' free exploration and cause the omission of certain safety hazards, especially those that are occluded from a fixed viewpoint. To alleviate these issues, we propose HomeSafeBench, a benchmark with 12,900 data points covering five common home safety hazards: fire, electric shock, falling object, trips, and child safety. HomeSafeBench provides dynamic first-person perspective images from simulated home environments, enabling the evaluation of VLM capabilities for home safety inspection. By allowing the embodied agents to freely explore the room, HomeSafeBench provides multiple dynamic perspectives in complex environments for a more thorough inspection. Our comprehensive evaluation of mainstream VLMs on HomeSafeBench reveals that even the best-performing model achieves an F1-score of only 10.23%, demonstrating significant limitations in current VLMs. The models particularly struggle with identifying safety hazards and selecting effective exploration strategies. We hope HomeSafeBench will provide valuable reference and support for future research related to home security inspections. Our dataset and code will be publicly available soon.
- Abstract(参考訳): 身体的エージェントは、家庭環境における安全上の危険を識別し報告することができる。
家庭の安全検査タスクにおけるそれらの能力の正確な評価は正確だが、既存のベンチマークには2つの重要な制限がある。
まず,視覚言語モデル(VLM)に基づくエンボディエージェントの正確な評価を阻害する直接視覚情報の代わりに,環境のテキスト記述を使用することで,安全性検査作業を単純化する。
第二に、彼らは環境観察のために単一の静的な視点を使用し、エージェントの自由な探索を制限し、特に固定された視点から無視される特定の安全リスクを排除します。
これらの問題を緩和するため、ホームセーフベンチ(HomeSafeBench)は、火災、電気ショック、落下物、旅行、子供の安全の5つの一般的なホームセーフハザードをカバーする12,900のデータポイントを持つベンチマークである。
HomeSafeBenchは、シミュレーションされたホーム環境から動的に一対一の視点画像を提供し、ホームセーフティ検査のためのVLM機能の評価を可能にする。
エンボディされたエージェントが自由に部屋を探索できるようにすることで、HomeSafeBenchは複雑な環境で複数の動的視点を提供し、より徹底的な検査を行う。
HomeSafeBench上でのメインストリームVLMの総合評価では、最高のパフォーマンスモデルでさえ10.23%のF1スコアを達成しており、現在のVLMには大きな制限があることがわかった。
モデルは特に、安全性の危険を特定し、効果的な探査戦略を選択するのに苦労する。
HomeSafeBenchが、ホームセキュリティ検査に関する将来の研究に、貴重な参考とサポートを提供することを期待している。
データセットとコードは近く公開されます。
関連論文リスト
- HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。
私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。
我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model [29.63418384788804]
5つのベンチマークでMLRM(Multimodal Large Reasoning Model)11の安全性評価を行う。
分析の結果、異なるベンチマークで異なる安全性パターンが明らかになった。
これは、モデル固有の推論能力を活用して安全でない意図を検出することで、MLRMの安全性問題に対処する潜在的アプローチである。
論文 参考訳(メタデータ) (2025-05-10T06:59:36Z) - Using Vision Language Models for Safety Hazard Identification in Construction [1.2343292905447238]
本稿では,建設リスクの同定のための視覚言語モデル(VLM)に基づくフレームワークを提案し,実験的に検証した。
GPT-4o, Gemini, Llama 3.2, InternVL2を含む最先端のVLMを1100の建設現場画像のカスタムデータセットを用いて評価した。
論文 参考訳(メタデータ) (2025-04-12T05:11:23Z) - LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [78.99703366417661]
大規模言語モデル(LLM)は、手続き的なガイダンスから自律的な実験オーケストレーションまで、タスクをますます支援している。
このような過度な信頼性は、リスク識別やリスクアセスメントの失敗が重大事故を引き起こす高リスクな実験室環境では特に危険である。
実験室安全ベンチマーク (LabSafety Bench) を提案し, 潜在的な危険を識別し, リスクを評価し, 実験室環境における安全でない行動の結果を予測する。
論文 参考訳(メタデータ) (2024-10-18T05:21:05Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。