論文の概要: HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2604.12447v1
- Date: Tue, 14 Apr 2026 08:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.344297
- Title: HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models
- Title(参考訳): HazardArena:ビジョンランゲージアクションモデルにおけるセマンティック安全性の評価
- Authors: Zixing Chen, Yifeng Gao, Li Wang, Yunhan Zhao, Yi Liu, Jiayu Li, Xiang Zheng, Zuxuan Wu, Cong Wang, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: 本研究では,視覚・言語・アクションモデルのセマンティック安全性を評価するためのベンチマークであるHazardArenaを紹介する。
安全シナリオに特化してトレーニングされたVLAモデルは、対応する安全でないシナリオで評価された場合、安全に動作しないことが多い。
本研究では,セマンティック属性や視覚言語判断を用いた行動実行を制約する,トレーニングフリーの安全オプション層を提案する。
- 参考スコア(独自算出の注目度): 87.35765363039638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models inherit rich world knowledge from vision-language backbones and acquire executable skills via action demonstrations. However, existing evaluations largely focus on action execution success, leaving action policies loosely coupled with visual-linguistic semantics. This decoupling exposes a systematic vulnerability whereby correct action execution may induce unsafe outcomes under semantic risk. To expose this vulnerability, we introduce HazardArena, a benchmark designed to evaluate semantic safety in VLAs under controlled yet risk-bearing contexts. HazardArena is constructed from safe/unsafe twin scenarios that share matched objects, layouts, and action requirements, differing only in the semantic context that determines whether an action is unsafe. We find that VLA models trained exclusively on safe scenarios often fail to behave safely when evaluated in their corresponding unsafe counterparts. HazardArena includes over 2,000 assets and 40 risk-sensitive tasks spanning 7 real-world risk categories grounded in established robotic safety standards. To mitigate this vulnerability, we propose a training-free Safety Option Layer that constrains action execution using semantic attributes or a vision-language judge, substantially reducing unsafe behaviors with minimal impact on task performance. We hope that HazardArena highlights the need to rethink how semantic safety is evaluated and enforced in VLAs as they scale toward real-world deployment.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、視覚言語バックボーンから豊かな世界知識を継承し、アクションデモを通じて実行可能なスキルを取得する。
しかし、既存の評価は主にアクション実行の成功に焦点を当てており、アクションポリシーは視覚言語的な意味論と疎結合である。
この分離は、適切なアクション実行がセマンティックリスクの下で安全でない結果を引き起こすという、系統的な脆弱性を露呈する。
この脆弱性を明らかにするために、我々は、制御されているがリスクを持つコンテキスト下でVLAのセマンティック安全性を評価するために設計されたベンチマークであるHazardArenaを紹介した。
HazardArenaは、一致したオブジェクト、レイアウト、アクション要求を共有する安全/安全でないツインシナリオで構成されており、アクションが安全でないかどうかを決定するセマンティックコンテキストでのみ異なる。
安全シナリオに特化してトレーニングされたVLAモデルは、対応する安全でないシナリオで評価された場合、安全に動作しないことが多い。
HazardArenaには2000以上の資産と、確立されたロボット安全基準に基づく7つの現実世界のリスクカテゴリにまたがる40のリスクに敏感なタスクが含まれている。
この脆弱性を軽減するために、セマンティック属性や視覚的判断を用いたアクション実行を制限し、タスクパフォーマンスに最小限の影響を伴って、安全でない振る舞いを著しく低減する、トレーニング不要のセーフティ・オプション・レイヤを提案する。
HazardArenaが、現実のデプロイメントに向けてスケールするVLAにおいて、セマンティック安全性をどのように評価し、強制するかを再考する必要性を強調していることを願っています。
関連論文リスト
- Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming [64.48633529149579]
本稿では,VLA(Vision-Language-Action)モデルの言語的変異に対する脆弱性を明らかにするための新しいフレームワークを提案する。
本手法は, ストレス試験用VLAエージェントへのスケーラブルなアプローチを示すため, 平均作業成功率を93.33%から5.85%に下げる。
論文 参考訳(メタデータ) (2026-04-07T08:43:36Z) - SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues [50.928203120795786]
本研究では,視覚言語モデルにおけるマルチモーダル安全性の挙動を,単純な意味的手がかりによって評価できるかどうかを考察する。
シーン内容を変更することなく、テキスト、視覚、認知の介入を制御できるセマンティック・ステアリング・フレームワークを導入する。
論文 参考訳(メタデータ) (2026-03-19T16:18:00Z) - SIA: Enhancing Safety via Intent Awareness for Vision-Language Models [9.208512612467029]
マルチモーダル入力を組み合わせれば、有害な意図が明らかになり、安全でないモデル出力につながる。
SIA (Safety via Intent Awareness) は、トレーニング不要で意図対応の安全フレームワークである。
SIAは、マルチモーダル入力において有害な意図を積極的に検出し、安全な応答の生成を誘導するためにそれを使用する。
論文 参考訳(メタデータ) (2025-07-21T13:59:50Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning [30.037309138373754]
視覚言語アクションモデル(VLA)は、汎用的なロボットポリシーとしての可能性を示している。
これらのモデルは、環境、ロボット自身、人間への危害のリスクを含む、現実世界の展開中に極端な安全上の課題を生じさせる。
我々は、ISA(Integrated safety approach)を探求し、安全要件を体系的にモデル化し、多様な安全でない振る舞いを積極的に引き出すことによって、この問題に対処する。
論文 参考訳(メタデータ) (2025-03-05T13:16:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。