論文の概要: RoboJailBench: Benchmarking Adversarial Attacks and Defenses in Embodied Robotic Agents
- arxiv url: http://arxiv.org/abs/2605.19328v1
- Date: Tue, 19 May 2026 04:07:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.112807
- Title: RoboJailBench: Benchmarking Adversarial Attacks and Defenses in Embodied Robotic Agents
- Title(参考訳): RoboJailBench: ロボットエージェントの敵攻撃と防御のベンチマーク
- Authors: Doguhuan Yeke, Yanming Zhou, Leo Y. Lin, Hongyu Cai, Antonio Bianchi, Z. Berkay Celik,
- Abstract要約: エンボディドAIシステムの新しいクラスは、例えばロボットや自動運転車のような物理的なプラットフォームに統合される。
従来の研究は、AIを具体化するためのジェイルブレイク攻撃と防御を導入した。
既存のベンチマークと評価フレームワークは、従来のチャットベースのモデルをターゲットにするか、エンボディされたAIの非敵安全評価に注力する。
本稿では,3つのコアコンポーネントからなるRoboJailBenchとのギャップに対処する。
- 参考スコア(独自算出の注目度): 14.945227570112882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Vision-Language Models (VLMs) facilitate a new class of embodied AI systems, where these models are integrated into physical platforms, e.g. robots and autonomous vehicles, to interpret visual scenes and execute natural language commands in diverse environments. Previous research has introduced jailbreak attacks and defenses for embodied AI. Their evaluations, however, rely on ad-hoc datasets, limited metrics, and emphasize attack success while neglecting the trade-off between security and the ability to follow benign commands. Existing benchmarks and evaluation frameworks either target traditional chat-based models or focus on non-adversarial safety evaluation for embodied AI; neither captures the adversarial risks, inputs, consequences, and evaluation criteria necessary for jailbreak attacks in embodied AI systems. In this paper, we address this gap with RoboJailBench, which consists of three core components. We establish a security taxonomy derived from ISO standards, regulatory rules, and documented incidents. This effort yields 18 categories of security violation consequences for embodied AI. We introduce an intent contrast dataset pipeline that augments existing datasets with paired adversarial and benign goals to measure both security and utility. Lastly, we provide an evolving repository with standardized metrics and a unified process for assessing and integrating new attacks and defenses. With this benchmark, we construct a new taxonomy-balanced dataset and augment five existing datasets. We integrate four attacks and two defenses to evaluate their performance on leading embodied VLMs. This benchmark provides the first standardized evaluation framework for jailbreak attacks in embodied AI and supports future research. We release our code, datasets, and artifacts, and maintain a leaderboard at https://purseclab.github.io/benchmark-for-robotics-security.
- Abstract(参考訳): VLM(Vision-Language Models)の最近の進歩は、視覚的なシーンを解釈し、さまざまな環境で自然言語コマンドを実行するために、これらのモデルを物理的なプラットフォーム、例えばロボットや自動運転車に統合する、新しい種類の組込みAIシステムを促進する。
従来の研究は、AIを具体化するためのジェイルブレイク攻撃と防御を導入した。
しかし、彼らの評価は、アドホックなデータセット、限られたメトリクスに依存し、セキュリティと良心的なコマンドに従う能力の間のトレードオフを無視しながら、攻撃の成功を強調している。
既存のベンチマークと評価フレームワークは、従来のチャットベースのモデルをターゲットにするか、エンボディAIの非敵安全評価に焦点を当てる。
本稿では,3つのコアコンポーネントからなるRoboJailBenchとのギャップに対処する。
私たちは、ISO標準、規制規則、および文書化されたインシデントから派生したセキュリティ分類を確立します。
この取り組みは、実施中のAIに対して18のセキュリティ違反の結果をもたらす。
私たちは、セキュリティとユーティリティの両方を測定するために、ペアと良心的な目標で既存のデータセットを拡張するインテントコントラストデータセットパイプラインを導入しました。
最後に、標準化されたメトリクスと、新たなアタックとディフェンスの評価と統合のための統一されたプロセスを備えた、進化中のレポジトリを提供します。
このベンチマークでは,新しい分類バランスデータセットを構築し,既存の5つのデータセットを拡張した。
我々は4つの攻撃と2つの防御を統合して、先進的なVLMの性能を評価する。
このベンチマークは、組み込みAIにおけるジェイルブレイク攻撃のための最初の標準化された評価フレームワークを提供し、将来の研究をサポートする。
コード、データセット、アーティファクトをリリースし、https://purseclab.github.io/benchmark-for-robotics-security.orgでリーダボードを維持しています。
関連論文リスト
- Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms [61.29786895012393]
VLA(Vision-Language-Action)モデルがインボディードインテリジェンスのための統一された基盤として登場している。
この調査は、ビジョン・ランゲージ・アクションモデルにおける安全性の統一的で最新の概要を提供する。
論文 参考訳(メタデータ) (2026-04-26T15:58:19Z) - AVISE: Framework for Evaluating the Security of AI Systems [0.0]
我々は、AIシステムやモデルのセキュリティの脆弱性を特定し評価するためのオープンソースのモジュラーフレームワークを紹介します。
我々は、言語モデルにおけるジェイルブレイク脆弱性を発見するための自動セキュリティ評価テスト(SET)を開発した。
我々は、最近リリースされた9つの言語モデルについて、SETを用いて評価し、これらすべてが、Red Queen攻撃に対して様々な程度に脆弱であることが判明した。
論文 参考訳(メタデータ) (2026-04-22T17:58:17Z) - Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective [31.55000083809067]
私たちは、ゲーム理論による抑止がAIを積極的に監視し、リスクを認識し、操作に対して回復力を与える方法を示します。
本稿では,(1)データ/フィードバック中毒に対するトレーニング時間監査,(2)制約されたレビュアーリソースによる事前デプロイ評価,(3)敵環境における堅牢なマルチモデル展開について報告する。
論文 参考訳(メタデータ) (2026-02-06T23:20:26Z) - AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - Cybersecurity AI Benchmark (CAIBench): A Meta-Benchmark for Evaluating Cybersecurity AI Agents [0.36134114973155557]
既存のベンチマークは、統合されたパフォーマンスではなく、独立したスキルを評価する。
モジュール型メタベンチマークフレームワークであるCAIBench(Cybersecurity AI Benchmark)を紹介する。
適切なマッチは2.6$times$ variance in Attack and Defense CTFsまで改善される。
論文 参考訳(メタデータ) (2025-10-28T11:36:20Z) - ANNIE: Be Careful of Your Robots [48.89876809734855]
エンボディドAIシステムに対する敵の安全攻撃に関する最初の体系的研究について述べる。
すべての安全カテゴリーで攻撃の成功率は50%を超えている。
結果は、実証済みのAIシステムにおいて、これまで未調査だったが、非常に連続的な攻撃面を露呈する。
論文 参考訳(メタデータ) (2025-09-03T15:00:28Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。