論文の概要: Securing LLM Agents Need Intent-to-Execution Integrity
- arxiv url: http://arxiv.org/abs/2605.16976v1
- Date: Sat, 16 May 2026 12:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:39:34.234327
- Title: Securing LLM Agents Need Intent-to-Execution Integrity
- Title(参考訳): LLMエージェントのセキュア化にはインテリジェンス・ツー・エグゼクティブ・インテリジェンスが必要である
- Authors: Wenjie Qu, Ming Xu, Peiran Wang, Shengfang Zhai, Jiaheng Zhang, Dawn Song,
- Abstract要約: 我々は, LLMエージェントの確保には, エージェントの実行がユーザの意図を忠実に反映した場合に規定するエンドツーエンドの正当性を定義する必要があると主張している。
LLMエージェントはコンパイラと構造的に類似しており、セキュリティ違反はユーザ意図を保存しない誤った実行に対応する。
emphTool整合性、emph命令整合性、emphJudgment整合性、emphData整合性。
- 参考スコア(独自算出の注目度): 49.490963596514185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This position paper argues that securing LLM agents requires first defining an end-to-end correctness property that specifies when an agent's execution faithfully reflects the user's intent. Modern LLM agents operate over an \emph{intent-to-execution pipeline}, where natural-language instructions are translated into concrete system operations such as tool calls, API requests, and code execution. While recent defenses have made progress in constraining how agents construct tool calls, most existing formulations implicitly assume that tools are trusted. The emergence of systems such as OpenClaw, with open ecosystems of third-party skills and direct access to user environments, breaks this assumption and exposes new failure modes, including malicious or over-privileged components in the execution pipeline. Despite rapid progress in defense mechanisms, there is no adequate correctness property that defines what ``secure'' means for LLM agents, nor a principled way to evaluate the coverage of existing defenses. We observe that LLM agents are structurally analogous to compilers, where security violations correspond to mis-executions that do not preserve user intent. Drawing on this analogy, we identify two fundamental problem sources -- untrusted data ingestion and untrusted tool execution -- and derive four integrity properties that must hold simultaneously: \emph{Tool Integrity}, \emph{Instruction Integrity}, \emph{Judgment Integrity}, and \emph{Data Flow Integrity}. We call their conjunction \emph{intent-to-execution integrity}. Analyzing existing agentic defenses against these properties reveals that current systems provide only partial and non-compositional coverage, leaving fundamental gaps in securing modern LLM agents.
- Abstract(参考訳): このポジションペーパーでは、LLMエージェントの確保には、まず、エージェントの実行がユーザの意図を忠実に反映したときに指定するエンドツーエンドの正当性プロパティを定義する必要がある、と論じている。
現代の LLM エージェントは \emph{intent-to-execution pipeline} 上で動作し、自然言語命令はツールコール、APIリクエスト、コード実行などの具体的なシステム操作に変換される。
最近の防御策では、エージェントがツールコールを構築する方法の制約が進んでいるが、既存の定式化のほとんどは、ツールが信頼されていることを暗黙的に仮定している。
OpenClawのようなシステムの出現は、サードパーティのスキルのオープンなエコシステムとユーザ環境への直接アクセスによって、この仮定を破り、実行パイプライン内の悪意のあるコンポーネントや過小評価されたコンポーネントを含む、新たな障害モードを公開する。
防衛機構の急速な進歩にもかかわらず、LLMエージェントの「安全」の意味を規定する適切な正当性や、既存の防衛のカバレッジを評価するための原則的な方法はない。
LLMエージェントはコンパイラと構造的に類似しており、セキュリティ違反はユーザ意図を保存しない誤った実行に対応する。
この類似性に基づいて、信頼できないデータ取り込みと信頼できないツール実行という2つの基本的な問題ソースを特定し、同時に保持しなければならない4つの整合性特性を導出する。
私たちはそれらの結合を 'emph{intent-to-execution integrity} と呼びます。
これらの特性に対する既存のエージェント防御の分析により、現在のシステムは部分的および非構成的カバレッジしか提供せず、現代のLLMエージェントの確保に根本的なギャップを残していることが明らかとなった。
関連論文リスト
- PragLocker: Protecting Agent Intellectual Property in Untrusted Deployments via Non-Portable Prompts [18.735200590753525]
LLMエージェントは、基礎的なLCMに基づいたタスク固有の機能を実装するプロンプトに依存する。
信頼できない展開では、敵はこれらのプロンプトを他のプロプライエタリなLLMとコピーして再利用することができ、経済的損失を引き起こす。
これらの要件を満たすプロンプトプロテクションスキームであるPragLockerを紹介します。
論文 参考訳(メタデータ) (2026-05-07T10:19:06Z) - ClawGuard: A Runtime Security Framework for Tool-Augmented LLM Agents Against Indirect Prompt Injection [8.627671856044527]
textscClawGuardは、すべてのツール呼び出し境界に設定されたユーザ確認ルールを強制する。
textscClawGuardは、モデル修正やインフラストラクチャの変更なしに、3つのインジェクションパスをすべてブロックする。
この研究は、安全なエージェントAIシステムのための効果的な防御メカニズムとして、決定論的ツールコール境界強制を確立する。
論文 参考訳(メタデータ) (2026-04-13T17:55:11Z) - A Framework for Formalizing LLM Agent Security [46.86073273904095]
LLMエージェントのセキュリティは本質的にコンテキスト的です。
LLMエージェントに対する既存のセキュリティ攻撃の定義は、しばしばこの文脈の性質を捉えない。
本稿では,文脈的セキュリティの観点から,既存の攻撃と防御を体系化するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-19T21:01:49Z) - You Told Me to Do It: Measuring Instructional Text-induced Private Data Leakage in LLM Agents [9.719776777345364]
外部文書を自律的に処理する高特権のLLMエージェントは、タスクを自動化するためにますます信頼されている。
これらのエージェントには、最小限のセキュリティ監視で端末アクセス、制御、アウトバウンドネットワーク接続が与えられる。
emphTrusted Executor Dilemmaと呼ばれるこの信頼モデルの基本的脆弱性を測定する。
この脆弱性は、実装バグではなく、命令追従設計パラダイムの構造的な結果である。
論文 参考訳(メタデータ) (2026-03-12T12:35:46Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - Securing the Model Context Protocol: Defending LLMs Against Tool Poisoning and Adversarial Attacks [8.419049623790618]
本研究は,MPP統合システムに対するセマンティックアタックの3つのクラスを分析する。
ディスクリプタの整合性を強制するためのRSAベースのマニフェスト署名、不審なツール定義を検出するためのLLM-on-LLMセマンティックベッティング、実行時に異常なツール動作をブロックする軽量ガードレールである。
提案手法は, モデル微調整や内部修正を伴わずに, 安全でないツール実行率を低減できることを示す。
論文 参考訳(メタデータ) (2025-12-06T20:07:58Z) - LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。