論文の概要: SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2604.19638v1
- Date: Tue, 21 Apr 2026 16:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.86907
- Title: SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models
- Title(参考訳): SafetyALFRED:マルチモーダル大規模言語モデルの安全性を考慮した計画評価
- Authors: Josue Torres-Fonseca, Naihao Deng, Yinpei Dai, Shane Storks, Yichi Zhang, Rada Mihalcea, Casey Kennington, Joyce Chai,
- Abstract要約: 実装エージェントベンチマークALFRED上に構築されたSafetyALFREDを紹介し,実際のキッチンハザードの6つのカテゴリを拡張した。
我々は,リスク認識だけでなく,具体的計画によるアクティブなリスク軽減についても,11種類の最先端モデルを評価した。
- 参考スコア(独自算出の注目度): 46.968844120076916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models are increasingly adopted as autonomous agents in interactive environments, yet their ability to proactively address safety hazards remains insufficient. We introduce SafetyALFRED, built upon the embodied agent benchmark ALFRED, augmented with six categories of real-world kitchen hazards. While existing safety evaluations focus on hazard recognition through disembodied question answering (QA) settings, we evaluate eleven state-of-the-art models from the Qwen, Gemma, and Gemini families on not only hazard recognition, but also active risk mitigation through embodied planning. Our experimental results reveal a significant alignment gap: while models can accurately recognize hazards in QA settings, average mitigation success rates for these hazards are low in comparison. Our findings demonstrate that static evaluations through QA are insufficient for physical safety, thus we advocate for a paradigm shift toward benchmarks that prioritize corrective actions in embodied contexts. We open-source our code and dataset under https://github.com/sled-group/SafetyALFRED.git
- Abstract(参考訳): マルチモーダル大規模言語モデルは、対話的な環境において自律的なエージェントとしてますます採用されているが、その安全性に積極的に対処する能力は依然として不十分である。
実装エージェントベンチマークALFRED上に構築されたSafetyALFREDを紹介し,実際のキッチンハザードの6つのカテゴリを拡張した。
既存の安全評価は、非身体的質問応答(QA)設定によるハザード認識に焦点が当てられているが、我々は、危険認識だけでなく、実施計画によるアクティブリスク軽減についても、Qwen、Gemma、Geminiの11の最先端モデルを評価する。
モデルではQA設定におけるハザードを正確に認識できるが,これらのハザードに対する平均緩和成功率は低い。
以上の結果から,QAによる静的評価は物理的安全性には不十分であることが示唆された。
コードとデータセットをhttps://github.com/sled-group/SafetyALFRED.gitでオープンソース化しました。
関連論文リスト
- BeSafe-Bench: Unveiling Behavioral Safety Risks of Situated Agents in Functional Environments [22.32760987248309]
本研究では,機能的環境における位置エージェントの行動安全リスクを明らかにするベンチマークであるBeSafe-Bench(BSB)を提案する。
BSBは、Web、Mobile、Embodied VLM、Embodied VLAの4つの代表的なドメインをカバーしている。
機能的環境を用いて、安全クリティカルリスクの9つのカテゴリでタスクを増強し、多様な指導空間を構築する。
論文 参考訳(メタデータ) (2026-01-30T03:41:57Z) - PropensityBench: Evaluating Latent Safety Risks in Large Language Models via an Agentic Approach [49.14349403242654]
我々は、リスクを伴う行動に関わるモデルの確率を評価する新しいベンチマークフレームワークであるtextbfPropensityBench$を提示する。
私たちのフレームワークには,サイバーセキュリティ,自己増殖,バイオセキュリティ,化学セキュリティという,リスクの高い4つのドメインにまたがる6,648のツールを備えた,5,874のシナリオが含まれています。
オープンソースとプロプライエタリなフロンティアモデル全体で、私たちは9つの不確実性の兆候を発見しました。
論文 参考訳(メタデータ) (2025-11-24T18:46:44Z) - DeepKnown-Guard: A Proprietary Model-Based Safety Response Framework for AI Agents [12.054307827384415]
大きな言語モデル(LLM)はますます顕著になり、重要なドメインへの信頼性の高いデプロイメントを厳しく制限しています。
本稿では,LLMを入力レベルと出力レベルの両方で保護する新しい安全応答フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T03:04:35Z) - IS-Bench: Evaluating Interactive Safety of VLM-Driven Embodied Agents in Daily Household Tasks [30.535665641990114]
対話型安全性のために設計された最初のマルチモーダルベンチマークであるIS-Benchを紹介する。
高忠実度シミュレーターでインスタンス化された388のユニークな安全リスクを持つ161の挑戦的なシナリオが特徴である。
これは、特定のリスク発生ステップの前/後においてリスク軽減アクションが実行されるかどうかを検証する、プロセス指向の新たな評価を容易にする。
論文 参考訳(メタデータ) (2025-06-19T15:34:46Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models [29.569220030102986]
textbfBeyond Safe Answers (BSA) ベンチは,3つの異なるSSAシナリオタイプに構成された2,000のチャレンジインスタンスからなる,新しいベンチマークである。
19の最先端のLEMの評価では、このベンチマークの難しさが示され、最高性能のモデルはリスクの合理性を正確に識別する上で、わずか38.0%の精度しか達成していない。
我々の研究は、LEMの安全性推論の忠実さを評価し改善するための総合的な評価ツールを提供し、真にリスクを意識し、確実に安全なAIシステムの開発を進める。
論文 参考訳(メタデータ) (2025-05-26T08:49:19Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。