論文の概要: From Assistant to Double Agent: Formalizing and Benchmarking Attacks on OpenClaw for Personalized Local AI Agent
- arxiv url: http://arxiv.org/abs/2602.08412v1
- Date: Mon, 09 Feb 2026 09:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.145265
- Title: From Assistant to Double Agent: Formalizing and Benchmarking Attacks on OpenClaw for Personalized Local AI Agent
- Title(参考訳): アシスタントからダブルエージェント: パーソナライズされたローカルAIエージェントのためのOpenClawの形式化とベンチマーク攻撃
- Authors: Yuhang Wang, Feiming Xu, Zheng Lin, Guangyu He, Yuzhe Huang, Haichang Gao, Zhenxing Niu,
- Abstract要約: 現実世界のパーソナライズされたエージェントに適したエンドツーエンドのセキュリティ評価フレームワークを提案する。
代表的なケーススタディとしてOpenClawを使用して、複数のパーソナライズされたシナリオ、ツール機能、攻撃タイプにわたるセキュリティを評価します。
以上の結果から,OpenClawはさまざまな実行段階で重大な脆弱性を示し,個別のエージェントデプロイメントにおいて重大なセキュリティリスクを浮き彫りにしている。
- 参考スコア(独自算出の注目度): 25.05247268367963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language model (LLM)-based agents, exemplified by OpenClaw, are increasingly evolving from task-oriented systems into personalized AI assistants for solving complex real-world tasks, their practical deployment also introduces severe security risks. However, existing agent security research and evaluation frameworks primarily focus on synthetic or task-centric settings, and thus fail to accurately capture the attack surface and risk propagation mechanisms of personalized agents in real-world deployments. To address this gap, we propose Personalized Agent Security Bench (PASB), an end-to-end security evaluation framework tailored for real-world personalized agents. Building upon existing agent attack paradigms, PASB incorporates personalized usage scenarios, realistic toolchains, and long-horizon interactions, enabling black-box, end-to-end security evaluation on real systems. Using OpenClaw as a representative case study, we systematically evaluate its security across multiple personalized scenarios, tool capabilities, and attack types. Our results indicate that OpenClaw exhibits critical vulnerabilities at different execution stages, including user prompt processing, tool usage, and memory retrieval, highlighting substantial security risks in personalized agent deployments. The code for the proposed PASB framework is available at https://github.com/AstorYH/PASB.
- Abstract(参考訳): OpenClawによって実証された大規模言語モデル(LLM)ベースのエージェントは、タスク指向システムから、複雑な現実世界のタスクを解決するためのパーソナライズされたAIアシスタントへと、ますます進化している。
しかし、既存のエージェントセキュリティ研究および評価フレームワークは、主に合成またはタスク中心の設定に焦点を当てており、現実の展開においてパーソナライズされたエージェントの攻撃面とリスク伝搬メカニズムを正確に把握することができない。
このギャップに対処するために、現実世界のパーソナライズされたエージェントに適したエンドツーエンドのセキュリティ評価フレームワークであるPersonalized Agent Security Bench (PASB)を提案する。
既存のエージェントアタックパラダイムに基づいて、PASBはパーソナライズされた使用シナリオ、現実的なツールチェーン、長期的なインタラクションを導入し、実際のシステム上でのブラックボックス、エンドツーエンドのセキュリティ評価を可能にする。
代表的なケーススタディとしてOpenClawを使用して、複数のパーソナライズされたシナリオ、ツール機能、アタックタイプにわたって、そのセキュリティを体系的に評価する。
この結果から,OpenClawは,ユーザプロンプト処理やツール使用,メモリ検索など,さまざまな実行段階において重大な脆弱性を示し,個人化されたエージェントデプロイメントにおいて重大なセキュリティリスクを浮き彫りにしていることがわかった。
提案されたPASBフレームワークのコードはhttps://github.com/AstorYH/PASBで公開されている。
関連論文リスト
- Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs [65.6660735371212]
textbftextscJustAskは,インタラクションのみで効果的な抽出戦略を自律的に発見するフレームワークである。
これは、アッパー信頼境界に基づく戦略選択と、原子プローブと高レベルのオーケストレーションにまたがる階層的なスキル空間を用いて、オンライン探索問題として抽出を定式化する。
この結果から,現代のエージェントシステムにおいて,システムプロンプトは致命的ではあるがほぼ無防備な攻撃面であることがわかった。
論文 参考訳(メタデータ) (2026-01-29T03:53:25Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - Agent Safety Alignment via Reinforcement Learning [29.759393704688986]
ツール・ユース・エージェントのための一貫した安全アライメント・フレームワークを提案する。
我々は、良識、悪意があり、ユーザープロンプトとツール応答の両方に敏感な三段階分類を導入する。
その結果,安全性と有効性は共同で最適化できることが示唆された。
論文 参考訳(メタデータ) (2025-07-11T02:34:16Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - The Hidden Dangers of Browsing AI Agents [0.0]
本稿では,複数のアーキテクチャ層にまたがるシステム的脆弱性に着目し,このようなエージェントの総合的なセキュリティ評価を行う。
本研究は,ブラウジングエージェントのエンド・ツー・エンドの脅威モデルについて概説し,実環境への展開を確保するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-05-19T13:10:29Z) - Progent: Programmable Privilege Control for LLM Agents [46.31581986508561]
本稿では,大規模言語モデルエージェントをセキュアにするための最初の特権制御フレームワークであるProgentを紹介する。
Progentは、潜在的に悪意のあるものをブロックしながら、ユーザタスクに必要なツールコールの実行をエージェントに制限することで、ツールレベルでのセキュリティを強化する。
モジュール設計のおかげで、Progentの統合はエージェント内部を変更せず、既存のエージェントの実装に最小限の変更しか必要としません。
論文 参考訳(メタデータ) (2025-04-16T01:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。