論文の概要: ClawSafety: "Safe" LLMs, Unsafe Agents
- arxiv url: http://arxiv.org/abs/2604.01438v2
- Date: Sat, 04 Apr 2026 15:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 12:54:54.573743
- Title: ClawSafety: "Safe" LLMs, Unsafe Agents
- Title(参考訳): 安全:「安全」なLLM、安全でないエージェント
- Authors: Bowen Wei, Yunbei Zhang, Jinhao Pan, Kai Mei, Xiao Wang, Jihun Hamm, Ziwei Zhu, Yingqiang Ge,
- Abstract要約: OpenClawのようなパーソナルAIエージェントは、ユーザのローカルマシンで高機能で動作する。
ClawSAFETYは、3次元(ハームドメイン、アタックベクター、有害アクションタイプ)に沿って編成された120の逆テストシナリオのベンチマークである。
各テストケースは、通常の作業中にエージェントが遭遇する3つのチャネルのうちの1つに、相手のコンテンツを埋め込む。
- 参考スコア(独自算出の注目度): 25.729388843970014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personal AI agents like OpenClaw run with elevated privileges on users' local machines, where a single successful prompt injection can leak credentials, redirect financial transactions, or destroy files. This threat goes well beyond conventional text-level jailbreaks, yet existing safety evaluations fall short: most test models in isolated chat settings, rely on synthetic environments, and do not account for how the agent framework itself shapes safety outcomes. We introduce CLAWSAFETY, a benchmark of 120 adversarial test scenarios organized along three dimensions (harm domain, attack vector, and harmful action type) and grounded in realistic, high-privilege professional workspaces spanning software engineering, finance, healthcare, law, and DevOps. Each test case embeds adversarial content in one of three channels the agent encounters during normal work: workspace skill files, emails from trusted senders, and web pages. We evaluate five frontier LLMs as agent backbones, running 2,520 sandboxed trials across all configurations. Attack success rates (ASR) range from 40\% to 75\% across models and vary sharply by injection vector, with skill instructions (highest trust) consistently more dangerous than email or web content. Action-trace analysis reveals that the strongest model maintains hard boundaries against credential forwarding and destructive actions, while weaker models permit both. Cross-scaffold experiments on three agent frameworks further demonstrate that safety is not determined by the backbone model alone but depends on the full deployment stack, calling for safety evaluation that treats model and framework as joint variables. Code and data will be available at: https://weibowen555.github.io/ClawSafety/.
- Abstract(参考訳): OpenClawのようなパーソナルAIエージェントは、ユーザのローカルマシン上で、単一のプロンプトインジェクションが認証情報をリークしたり、金融トランザクションをリダイレクトしたり、ファイルを破壊したりする、高度な権限で実行される。
この脅威は、従来のテキストレベルのジェイルブレイクをはるかに越えるが、既存の安全性評価は不足している: 孤立したチャット設定におけるテストモデルのほとんどは、合成環境に依存し、エージェントフレームワーク自体が安全結果をどのように形成するかを考慮していない。
CLAWSAFETYは3つの次元(ハームドメイン、アタックベクター、有害なアクションタイプ)に沿って組織された120の逆行テストシナリオのベンチマークで、ソフトウェアエンジニアリング、ファイナンス、ヘルスケア、法律、DevOpsにまたがる、現実的で高特権のプロフェッショナルなワークスペースに基盤を置いています。
各テストケースは、通常の作業中にエージェントが遭遇する3つのチャネルのうちの1つに、相手のコンテンツを埋め込む。
我々は5つのフロンティアLSMをエージェントバックボーンとして評価し,全構成で2,520のサンドボックス試験を行った。
攻撃成功率(ASR)は、モデル全体で40\%から75\%の範囲で、インジェクションベクターによって著しく変化し、メールやWebコンテンツよりも一貫してスキルインストラクション(高い信頼度)が危険である。
行動トレース分析により、最強モデルは信用的フォワードと破壊的行動に対するハードバウンダリを維持し、弱いモデルでは両者を許容していることが明らかとなった。
3つのエージェントフレームワークに関するクロススケーリング実験は、安全性がバックボーンモデルだけで決定されるのではなく、完全なデプロイメントスタックに依存し、モデルとフレームワークを共同変数として扱う安全性評価を要求することをさらに示している。
コードとデータは、https://weibowen555.github.io/ClawSafety/.comで入手できる。
関連論文リスト
- A Trajectory-Based Safety Audit of Clawdbot (OpenClaw) [77.1549110891026]
6つのリスク次元にわたるClawdbotの軌道中心評価について述べる。
我々は、完全なインタラクショントラジェクトリ(メッセージ、アクション、ツールコール引数/アウトプット)をログし、自動化されたトラジェクトリ判断とヒューマンレビューの両方を使用して安全性を評価する。
論文 参考訳(メタデータ) (2026-02-16T00:33:02Z) - Breaking the Code: Security Assessment of AI Code Agents Through Systematic Jailbreaking Attacks [11.371490212283383]
コード対応の大規模言語モデル(LLM)エージェントはソフトウェア工学に組み込まれ、コードを読み、書き、実行することができる。
JAWS-BENCHは、3つのエスカレーションワークスペースにまたがるベンチマークであり、攻撃能力を反映している。
JAWS-0のプロンプトのみの条件下では、コードエージェントは平均して61%の攻撃を受けており、58%が有害、52%がパース、27%がエンドツーエンドで実行される。
論文 参考訳(メタデータ) (2025-10-01T18:38:20Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [81.73540246946015]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。
プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。
モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文 参考訳(メタデータ) (2025-04-18T20:36:10Z) - Multi-Agent Systems Execute Arbitrary Malicious Code [7.429202753218103]
敵コンテンツは、システム内の制御と通信をハイジャックして、安全でないエージェントや機能を呼び出すことができることを示す。
これにより、ユーザーのデバイス上で任意の悪意のあるコードを実行するまで、完全なセキュリティ侵害が発生する。
これらの結果が,マルチエージェントシステムのための信頼とセキュリティモデルの開発を動機付けることを願っている。
論文 参考訳(メタデータ) (2025-03-15T16:16:08Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents [3.09793323158304]
既存のベンチマークは、エージェントがタスクを完了したか、それが安全に行われているか、あるいは企業が信頼できる方法で行われているかを無視するのみである。
textbftextscST-WebAgentBenchを紹介します。
222のタスクはそれぞれ、制約を符号化する簡潔なルールであるSTポリシーと組み合わせられ、6次元(例えば、ユーザの同意、堅牢性)に沿ってスコアされる。
論文 参考訳(メタデータ) (2024-10-09T09:13:38Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。