論文の概要: Position: A Three-Layer Probabilistic Assume-Guarantee Architecture Is Structurally Required for Safe LLM Agent Deployment
- arxiv url: http://arxiv.org/abs/2605.18672v1
- Date: Mon, 18 May 2026 17:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.124988
- Title: Position: A Three-Layer Probabilistic Assume-Guarantee Architecture Is Structurally Required for Safe LLM Agent Deployment
- Title(参考訳): 安全なLLMエージェント配置には3層確率的集合保証アーキテクチャが必要
- Authors: S. Bensalem, Y. Dong, M. Franzle, X. Huang, J. Kroger, D. Nickovic, A. Nouri, R. Roy, C. Wu,
- Abstract要約: 安全な操作を共同で構成する3つの次元:意味的意図とポリシーの遵守、環境の妥当性、動的実現可能性。
コミュニティは、各安全次元が独立して認定されたレイヤによって強制される、コントラクトベースのアーキテクチャで対応する必要があります。
このようなアーキテクチャをスケッチし、確率の連鎖則によって認められる構成系レベルの安全性境界を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This position paper argues that enforcing LLM agent safety within a single abstraction layer is not merely suboptimal but categorically insufficient for deployed LLM agents -- a structural consequence of how agent execution works, not a contingent limitation of current systems. The three dimensions that jointly constitute safe operation -- semantic intent and policy compliance, environmental validity, and dynamical feasibility -- each depend on a strictly distinct set of information that becomes available at different stages of execution. No single guardrail can certify all three. We argue that the community must respond with a contract-based architecture in which each safety dimension is enforced by an independently certified layer whose probabilistic guarantee satisfies the next layer's assumption. We sketch such an architecture and derive the compositional system-level safety bounds it admits via the chain rule of probability. Three open problems stand between this and a deployable standard: bound estimation from non-i.i.d.\ traces, graceful degradation of contracts under deployment drift, and extension to multi-agent settings -- the most important unfinished business in LLM agent runtime assurance.
- Abstract(参考訳): 本稿では,LLMエージェントの安全性を単一抽象化層内で実施することは,単に最適ではないものの,デプロイされたLLMエージェントには分類的に不十分である,と論じる。これはエージェントの実行方法の構造的結果であり,現在のシステムの一時的な制限ではない。その3つの側面は,セマンティックな意図とポリシーの遵守,環境の妥当性,ダイナミックな実現性など,それぞれが実行の異なる段階で利用可能な,厳密な情報の集合に依存している。
ガードレールは3つ全てを認証できない。
コミュニティは、各安全次元が独立した認定層によって強制され、その確率的保証が次の層の前提を満たす契約に基づくアーキテクチャで対応する必要がある、と我々は主張する。
このようなアーキテクチャをスケッチし、確率の連鎖則によって認められる構成系レベルの安全性境界を導出する。
非i.d.\トレースからのバウンド推定、デプロイメントのドリフトによる契約の優雅な劣化、マルチエージェント設定への拡張 -- LLMエージェント実行時の保証において最も重要な未完成のビジネスである。
関連論文リスト
- Securing LLM Agents Need Intent-to-Execution Integrity [49.490963596514185]
我々は, LLMエージェントの確保には, エージェントの実行がユーザの意図を忠実に反映した場合に規定するエンドツーエンドの正当性を定義する必要があると主張している。
LLMエージェントはコンパイラと構造的に類似しており、セキュリティ違反はユーザ意図を保存しない誤った実行に対応する。
emphTool整合性、emph命令整合性、emphJudgment整合性、emphData整合性。
論文 参考訳(メタデータ) (2026-05-16T12:53:31Z) - Auditing Agent Harness Safety [81.22315979618612]
LLMエージェントは、ツールをディスパッチし、リソースを割り当て、特別なコンポーネント間でメッセージをルーティングする実行ハーネスの中でますます動作します。
ほとんどの安全ベンチマークは最終出力または終端状態のみをスコアするが、多くの違反は終端ではなく、軌道の途中で発生する。
HarnessAuditは、境界コンプライアンス、実行の忠実さ、システムの安定性など、完全な実行軌跡を監査するフレームワークである。
論文 参考訳(メタデータ) (2026-05-14T02:14:28Z) - PRISM: : Planning and Reasoning with Intent in Simulated Embodied Environments [59.07829883257003]
5つの集合住宅の上に建設され、PRISMは300の人間認証タスクを3つの能力レベルに構成する。
PRISMはエージェントに依存しない実行可能なアクションAPIを公開し、任意のエージェントをエンドツーエンドで評価できるようにする。
論文 参考訳(メタデータ) (2026-05-12T04:59:47Z) - Safe Bilevel Delegation (SBD): A Formal Framework for Runtime Delegation Safety in Multi-Agent Systems [4.161562398794914]
本稿では,階層型マルチエージェントシステムにおけるランタイムデリゲート安全のための公式なフレームワークを提案する。
医療用AI(MIMIC-III)、金融リスク管理(SとP500)、教育エージェント監督(ASSISTments)の3つの高レベル領域で安全な二段階デリゲーション(SBD)をインスタンス化する。
論文 参考訳(メタデータ) (2026-04-30T03:15:05Z) - Architecture Matters for Multi-Agent Security [1.699014226195857]
本研究では,マルチエージェントシステムがタスク性能と攻撃抵抗のトレードオフをいかに形成するかを検討する。
マルチエージェントアーキテクチャは、構成の大部分においてスタンドアロンのエージェントよりも脆弱であることがわかった。
論文 参考訳(メタデータ) (2026-04-25T22:25:58Z) - SafeHarness: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment [19.947119280467934]
セーフハーネス(Safeharness)は、4つの防衛レイヤがエージェントライフサイクルに直接織られるセキュリティアーキテクチャである。
ベンチマークデータセットの安全性を、多様なハーネス構成で評価する。
論文 参考訳(メタデータ) (2026-04-15T08:59:00Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。