論文の概要: SafeClaw-R: Towards Safe and Secure Multi-Agent Personal Assistants
- arxiv url: http://arxiv.org/abs/2603.28807v1
- Date: Sat, 28 Mar 2026 05:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.543489
- Title: SafeClaw-R: Towards Safe and Secure Multi-Agent Personal Assistants
- Title(参考訳): SafeClaw-R: 安全なマルチエージェントパーソナルアシスタントを目指して
- Authors: Haoyu Wang, Zibo Xiao, Yedi Zhang, Christopher M. Poskitt, Jun Sun,
- Abstract要約: SafeClaw-Rは、実行グラフ上のシステムレベルの不変量として安全を強制するフレームワークである。
生産性プラットフォーム、サードパーティのスキルエコシステム、コード実行環境の3つの領域でSafeClaw-Rを評価します。
- 参考スコア(独自算出の注目度): 10.897758061443989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based multi-agent systems (MASs) are transforming personal productivity by autonomously executing complex, cross-platform tasks. Frameworks such as OpenClaw demonstrate the potential of locally deployed agents integrated with personal data and services, but this autonomy introduces significant safety and security risks. Unintended actions from LLM reasoning failures can cause irreversible harm, while prompt injection attacks may exfiltrate credentials or compromise the system. Our analysis shows that 36.4% of OpenClaw's built-in skills pose high or critical risks. Existing approaches, including static guardrails and LLM-as-a-Judge, lack reliable real-time enforcement and consistent authority in MAS settings. To address this, we propose SafeClaw-R, a framework that enforces safety as a system-level invariant over the execution graph by ensuring that actions are mediated prior to execution, and systematically augments skills with safe counterparts. We evaluate SafeClaw-R across three representative domains: productivity platforms, third-party skill ecosystems, and code execution environments. SafeClaw-R achieves 95.2% accuracy in Google Workspace scenarios, significantly outperforming regex baselines (61.6%), detects 97.8% of malicious third-party skill patterns, and achieves 100% detection accuracy in our adversarial code execution benchmark. These results demonstrate that SafeClaw-R enables practical runtime enforcement for autonomous MASs.
- Abstract(参考訳): LLMベースのマルチエージェントシステム(MAS)は、複雑なクロスプラットフォームタスクを自律的に実行することで、個人の生産性を変革している。
OpenClawのようなフレームワークは、個人データやサービスと統合されたローカルにデプロイされたエージェントの可能性を示しているが、この自律性は、重大な安全性とセキュリティリスクをもたらす。
LLMの失敗を推論する意図しないアクションは、不可逆的な害を引き起こす可能性があるが、インジェクションのインジェクション攻撃は、認証情報を漏洩したり、システムに侵入する可能性がある。
分析の結果,OpenClawのビルトインスキルの36.4%が,高い,あるいは重大なリスクを負っていることがわかった。
静的ガードレールやLSM-as-a-Judgeといった既存のアプローチでは、MAS設定に信頼性のあるリアルタイムの強制と一貫した権限が欠如している。
そこで我々はSafeClaw-Rを提案する。SafeClaw-Rは,実行前にアクションが仲介されることを保証することで,実行グラフ上のシステムレベルの不変量として安全を強制するフレームワークで,安全な動作でスキルを体系的に強化する。
SafeClaw-Rは、生産性プラットフォーム、サードパーティのスキルエコシステム、コード実行環境の3つの代表的な領域で評価します。
SafeClaw-Rは、Google Workspaceのシナリオで95.2%の精度を達成し、regexベースライン(61.6%)を大幅に上回り、悪意のあるサードパーティのスキルパターンの97.8%を検出し、敵のコード実行ベンチマークで100%の精度を達成する。
これらの結果は,SafeClaw-Rが自律型MASの実行時実行を可能にすることを示す。
関連論文リスト
- The Verifier Tax: Horizon Dependent Safety Success Tradeoffs in Tool Using LLM Agents [1.3299507495084417]
本研究では, 大規模言語モデル (LLM) エージェントを用いた多段階ツールにおいて, 実行時の安全でない動作に対する強制が, エンドツーエンドのタスクパフォーマンスに与える影響について検討する。
モデル依存相互作用の地平線(15~30ターン)を特定し、その結果を総合成功率(SR)、安全な成功率(SSR)、安全でない成功率(USR)に分解する。
論文 参考訳(メタデータ) (2026-03-18T16:16:34Z) - Security Assessment and Mitigation Strategies for Large Language Models: A Comprehensive Defensive Framework [0.6015898117103067]
大規模言語モデルは、医療から金融への重要なインフラをますます力づけていますが、敵の操作に対する脆弱性は、システムの完全性とユーザの安全を脅かしています。
本研究は、標準化された脆弱性評価フレームワークを確立し、特定された脅威から保護するための多層防御システムを開発することで、このギャップに対処する。
論文 参考訳(メタデータ) (2026-03-17T20:32:06Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文 参考訳(メタデータ) (2025-09-30T00:31:44Z) - The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.0]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、従来のコンテンツ生成からシステムレベルの妥協まで及ぶセキュリティ脆弱性を導入している。
本稿では,自律エージェント内の推論エンジンとして使用されるLLMのセキュリティを総合的に評価する。
異なる攻撃面と信頼境界がどのように活用され、そのような乗っ取りを組織化できるかを示す。
論文 参考訳(メタデータ) (2025-07-09T13:54:58Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。