論文の概要: AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions
- arxiv url: http://arxiv.org/abs/2506.14697v1
- Date: Tue, 17 Jun 2025 16:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.57587
- Title: AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions
- Title(参考訳): AgentSAFE: 危険な行為に対する身体的エージェントの安全性のベンチマーク
- Authors: Aishan Liu, Zonghao Ying, Le Wang, Junjie Mu, Jinyang Guo, Jiakai Wang, Yuqing Ma, Siyuan Liang, Mingchuan Zhang, Xianglong Liu, Dacheng Tao,
- Abstract要約: 本稿では,有害な指示を受けるVLMエージェントの安全性を評価するための最初のベンチマークであるProgentSAFEを提案する。
AgentSAFEはシミュレーションサンドボックス内の現実的なエージェントと環境の相互作用をシミュレートする。
ベンチマークには、45の敵シナリオ、1,350の有害なタスク、8,100の有害な命令が含まれます。
- 参考スコア(独自算出の注目度): 76.74726258534142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of vision-language models (VLMs) and their integration into embodied agents have unlocked powerful capabilities for decision-making. However, as these systems are increasingly deployed in real-world environments, they face mounting safety concerns, particularly when responding to hazardous instructions. In this work, we propose AGENTSAFE, the first comprehensive benchmark for evaluating the safety of embodied VLM agents under hazardous instructions. AGENTSAFE simulates realistic agent-environment interactions within a simulation sandbox and incorporates a novel adapter module that bridges the gap between high-level VLM outputs and low-level embodied controls. Specifically, it maps recognized visual entities to manipulable objects and translates abstract planning into executable atomic actions in the environment. Building on this, we construct a risk-aware instruction dataset inspired by Asimovs Three Laws of Robotics, including base risky instructions and mutated jailbroken instructions. The benchmark includes 45 adversarial scenarios, 1,350 hazardous tasks, and 8,100 hazardous instructions, enabling systematic testing under adversarial conditions ranging from perception, planning, and action execution stages.
- Abstract(参考訳): 視覚言語モデル(VLM)の急速な進歩と、具体化エージェントへの統合により、意思決定の強力な能力が解き放たれた。
しかし、これらのシステムは現実世界の環境にますます配備されているため、特に危険な指示に応答する場合、安全上の懸念が高まる。
本研究では,悪質な指示下でのVLMエージェントの安全性を評価するための総合的なベンチマークである AgentSAFE を提案する。
AgentSAFEはシミュレーションサンドボックス内の現実的なエージェント環境相互作用をシミュレートし、ハイレベルなVLM出力と低レベルなエンボディドコントロールの間のギャップを埋める新しいアダプタモジュールを組み込む。
具体的には、認識された視覚的実体を操作可能なオブジェクトにマッピングし、抽象的なプランニングを環境内の実行可能な原子活動に変換する。
そこで我々は,Asimovs Three Laws of Roboticsにインスパイアされたリスク認識型インストラクションデータセットを構築した。
このベンチマークには、45の敵シナリオ、1,350の有害タスク、8,100の有害命令が含まれており、認識、計画、行動実行段階を含む敵条件下での体系的なテストを可能にする。
関連論文リスト
- Automating Safety Enhancement for LLM-based Agents with Synthetic Risk Scenarios [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Using Vision Language Models for Safety Hazard Identification in Construction [1.2343292905447238]
本稿では,建設リスクの同定のための視覚言語モデル(VLM)に基づくフレームワークを提案し,実験的に検証した。
GPT-4o, Gemini, Llama 3.2, InternVL2を含む最先端のVLMを1100の建設現場画像のカスタムデータセットを用いて評価した。
論文 参考訳(メタデータ) (2025-04-12T05:11:23Z) - Graphormer-Guided Task Planning: Beyond Static Rules with LLM Safety Perception [4.424170214926035]
本稿では,大規模言語モデルと構造化安全モデリングを組み合わせたリスク対応タスク計画フレームワークを提案する。
提案手法は,空間的および文脈的危険因子を抽出し,動的セマンティック安全グラフを構築する。
既定の安全性制約に依存する既存の手法とは異なり、我々のフレームワークはコンテキスト認識型リスク認識モジュールを導入している。
論文 参考訳(メタデータ) (2025-03-10T02:43:54Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [42.69984822098671]
既存のベンチマークは主に重要な安全リスクを見落とし、パフォーマンスの計画に集中しています。
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを提案する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な、多種多様で高品質なデータセット、(2)低レベルコントローラを備えた普遍的な実施環境であるSafeAgentEnvは、8つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートし、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法である。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。