論文の概要: Clawed and Dangerous: Can We Trust Open Agentic Systems?
- arxiv url: http://arxiv.org/abs/2603.26221v1
- Date: Fri, 27 Mar 2026 09:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.427357
- Title: Clawed and Dangerous: Can We Trust Open Agentic Systems?
- Title(参考訳): 不正で危険な:オープンエージェントシステムを信頼できるか?
- Authors: Shiping Chen, Qin Wang, Guangsheng Yu, Xu Wang, Liming Zhu,
- Abstract要約: オープンエージェントシステムは、プランニングを外部機能、永続メモリ、特権実行と組み合わせる。
本稿では,6次元分析分類法を導入し,攻撃,ベンチマーク,防衛,監査,隣接技術基盤にまたがる50の論文を合成する。
文献は攻撃特性とベンチマーク構築において比較的成熟しているが,デプロイメントコントロールや運用管理,永続的メモリの完全性,能力回復には依然として弱いことが,我々のレビューで示されている。
- 参考スコア(独自算出の注目度): 12.04979073308511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open agentic systems combine LLM-based planning with external capabilities, persistent memory, and privileged execution. They are used in coding assistants, browser copilots, and enterprise automation. OpenClaw is a visible instance of this broader class. Without much attention yet, their security challenge is fundamentally different from that of traditional software that relies on predictable execution and well-defined control flow. In open agentic systems, everything is ''probabilistic'': plans are generated at runtime, key decisions may be shaped by untrusted natural-language inputs and tool outputs, execution unfolds in uncertain environments, and actions are taken under authority delegated by human users. The central challenge is therefore not merely robustness against individual attacks, but the governance of agentic behavior under persistent uncertainty. This paper systematizes the area through a software engineering lens. We introduce a six-dimensional analytical taxonomy and synthesize 50 papers spanning attacks, benchmarks, defenses, audits, and adjacent engineering foundations. From this synthesis, we derive a reference doctrine for secure-by-construction agent platforms, together with an evaluation scorecard for assessing platform security posture. Our review shows that the literature is relatively mature in attack characterization and benchmark construction, but remains weak in deployment controls, operational governance, persistent-memory integrity, and capability revocation. These gaps define a concrete engineering agenda for building agent ecosystems that are governable, auditable, and resilient under compromise.
- Abstract(参考訳): オープンエージェントシステムは、LCMベースの計画と外部機能、永続メモリ、特権実行を組み合わせている。
コーディングアシスタント、ブラウザのパトリオット、エンタプライズオートメーションで使用されている。
OpenClawは、このより広いクラスの目に見える例です。
まだ多くの注意を払わずに、彼らのセキュリティ課題は、予測可能な実行と明確に定義された制御フローに依存する従来のソフトウェアと根本的に異なる。
オープンエージェントシステムでは、すべてが'確率的'である: 実行時に計画が生成され、信頼できない自然言語入力とツール出力によって重要な決定が形成され、不確実な環境で実行が展開され、アクションは人間によって委譲された権限の下で行われる。
したがって、中心的な課題は、個々の攻撃に対する堅牢性だけでなく、永続的な不確実性の下でのエージェント的行動のガバナンスである。
本稿では,ソフトウェア・エンジニアリング・レンズによる領域の体系化について述べる。
我々は6次元分析分類を導入し、攻撃、ベンチマーク、防衛、監査、および隣接する工学基盤にまたがる50の論文を合成する。
この合成から,セキュア・バイ・コンストラクション・エージェント・プラットフォームのための基準ドクトリと,プラットフォームセキュリティ姿勢を評価するための評価スコアカードを導出する。
文献は攻撃特性とベンチマーク構築において比較的成熟しているが,デプロイメントコントロールや運用管理,永続的メモリの完全性,能力回復には依然として弱いことが,我々のレビューで示されている。
これらのギャップは、管理可能で監査可能で、妥協の下で回復力のあるエージェントエコシステムを構築するための具体的なエンジニアリングアジェンダを定義します。
関連論文リスト
- Uncovering Security Threats and Architecting Defenses in Autonomous Agents: A Case Study of OpenClaw [42.9467373594646]
本報告では,OpenClawエコシステムの総合的なセキュリティ分析について述べる。
我々は、インジェクション駆動のRemote Code Execution(RCE)、シーケンシャルツールアタックチェーン、コンテキスト記憶、サプライチェーン汚染などの重要な脆弱性を強調した。
これらのシステム的アーキテクチャ欠陥に対処するために、フルライフサイクルエージェントセキュリティアーキテクチャ(FASA)を導入します。
この理論的な防御青写真は、ゼロトラストエージェント実行、動的意図検証、および層間推論-作用相関を提唱している。
論文 参考訳(メタデータ) (2026-03-13T04:33:05Z) - Extending the Formalism and Theoretical Foundations of Cryptography to AI [18.724847875398435]
言語モデル(Large Language Models)の最近の進歩は、自律型LMベースのエージェントの開発を可能にしている。
セキュリティリスクを軽減するための新たな方向の1つは、アクセス制御とパーミッション機構を通じてエージェントの動作を制限することだ。
まず、言語モデルに合わせた攻撃分類を構築することで、景観を体系化する。
次に,AIOracleをアルゴリズムで定義し,セキュリティゲームフレームワークを導入することにより,エージェントアクセス制御の形式的処理を開発する。
論文 参考訳(メタデータ) (2026-03-03T04:11:21Z) - The Alignment Flywheel: A Governance-Centric Hybrid MAS for Architecture-Agnostic Safety [5.399984738447277]
本稿では、アライメントフライホイールをガバナンス中心のハイブリッドMASアーキテクチャとして定式化する。
執行層は実行時に明確なリスクポリシーを適用し、ガバナンスMASは監査、不確実性駆動による検証、バージョン管理による改善を通じてOracleを監督します。
アーキテクチャはProposerとSafety Oracleの両方に関して実装に依存せず、実行時ゲーティング、監査、署名されたパッチ、ステージングロールアウトに必要な役割、アーティファクト、プロトコル、リリースセマンティクスを指定する。
論文 参考訳(メタデータ) (2026-02-28T00:48:06Z) - LPS-Bench: Benchmarking Safety Awareness of Computer-Use Agents in Long-Horizon Planning under Benign and Adversarial Scenarios [51.52395368061729]
LPS-Benchは,長期作業下でのMPPベースのCUAの計画時安全意識を評価するベンチマークである。
実験は、安全な行動を維持する既存のCUAの能力に重大な欠陥があることを明らかにする。
MCPに基づくCUAシステムにおける長期計画の安全性向上のための緩和戦略を提案する。
論文 参考訳(メタデータ) (2026-02-03T08:40:24Z) - Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs [65.6660735371212]
textbftextscJustAskは,インタラクションのみで効果的な抽出戦略を自律的に発見するフレームワークである。
これは、アッパー信頼境界に基づく戦略選択と、原子プローブと高レベルのオーケストレーションにまたがる階層的なスキル空間を用いて、オンライン探索問題として抽出を定式化する。
この結果から,現代のエージェントシステムにおいて,システムプロンプトは致命的ではあるがほぼ無防備な攻撃面であることがわかった。
論文 参考訳(メタデータ) (2026-01-29T03:53:25Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - Agentic AI for Autonomous Defense in Software Supply Chain Security: Beyond Provenance to Vulnerability Mitigation [0.0]
本論文は,自律型ソフトウェアサプライチェーンセキュリティに基づくエージェント人工知能(AI)の例を含む。
大規模言語モデル(LLM)ベースの推論、強化学習(RL)、マルチエージェント調整を組み合わせている。
その結果、エージェントAIは、自己防衛的で積極的なソフトウェアサプライチェーンへの移行を促進することが示されている。
論文 参考訳(メタデータ) (2025-12-29T14:06:09Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - A Novel Approach to Identify Security Controls in Source Code [4.598579706242066]
本稿では,一般的なセキュリティ制御の包括的リストを列挙し,それぞれにデータセットを作成する。
最新のNLP技術であるBERT(Bidirectional Representations from Transformers)とTactic Detector(Tactic Detector)を使って、セキュリティコントロールを高い信頼性で識別できることを示しています。
論文 参考訳(メタデータ) (2023-07-10T21:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。