論文の概要: Guardrails as Infrastructure: Policy-First Control for Tool-Orchestrated Workflows
- arxiv url: http://arxiv.org/abs/2603.18059v1
- Date: Wed, 18 Mar 2026 01:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.732475
- Title: Guardrails as Infrastructure: Policy-First Control for Tool-Orchestrated Workflows
- Title(参考訳): インフラストラクチャとしてのガードレール - ツールオーケストレーションワークフローのポリシファーストコントロール
- Authors: Akshey Sigdel, Rista Baral,
- Abstract要約: Policy-First Toolingは、明示的な制約、リスク認識ゲーティング、リカバリコントロール、監査可能な説明を通じて、ツールの実行を仲介する。
制御された5つのポリシーパックと3つの障害プロファイルをまたいだ225の運用では、厳格なパックにより、違反防止はP0の0.000からP4の0.681に改善され、タスク成功は0.356から0.067に減少した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-using automation systems, from scripts and CI bots to agentic assistants, fail in recurring patterns. Common failures include unsafe side effects, invalid arguments, uncontrolled retries, and leakage of sensitive outputs. Many mitigations are model-centric and prompt-dependent, so they are brittle and do not generalize to non-LLM callers. We present Policy-First Tooling, a model-agnostic permission layer that mediates tool invocation through explicit constraints, risk-aware gating, recovery controls, and auditable explanations. The paper contributes a compact policy DSL, a runtime enforcement architecture with actionable rationale and fix hints, and a reproducible benchmark based on trace replay with controlled fault and misuse injection. In 225 controlled runs across five policy packs and three fault profiles, stricter packs improve violation prevention from 0.000 in P0 to 0.681 in P4, while task success drops from 0.356 to 0.067. Retry amplification decreases from 3.774 in P0 to 1.378 in P4, and leakage recall reaches 0.875 under injected secret outputs. These results make safety to utility trade-offs explicit and measurable.
- Abstract(参考訳): スクリプトやCIボット、エージェントアシスタントなど、ツールを使用する自動化システムは、繰り返しパターンで失敗する。
一般的な障害としては、安全でない副作用、無効な引数、制御されていないリトライ、機密出力のリークなどがある。
多くの緩和はモデル中心であり、プロンプト依存であるため、脆く、非LLM呼び出しに一般化しない。
これは、明示的な制約、リスク認識のゲーティング、リカバリコントロール、監査可能な説明を通じて、ツールの実行を仲介するモデルに依存しないパーミッション層である。
本稿では,コンパクトなポリシーDSL,動作可能な論理と修正ヒントを備えた実行時実行アーキテクチャ,および制御された障害と誤用によるトレースリプレイに基づく再現可能なベンチマークを提案する。
制御された5つのポリシパックと3つの障害プロファイルをまたいだ225の運用では、厳格なパックにより、違反防止はP0の0.000からP4の0.681に改善され、タスク成功は0.356から0.067に減少した。
リトライ増幅はP0で3.774からP4で1.378に減少し、シークレット出力でリークリコールは0.875に達する。
これらの結果は、ユーティリティトレードオフに対する安全性を明確にし、測定可能である。
関連論文リスト
- Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents [18.383906296536185]
Traversal-as-Policy: サンドボックス化されたOpenHandsの実行ログを単一の実行可能なGated Behavior Tree (GBT)に蒸留する
各ノードは状態条件のアクションマクロを符号化し、成功した軌道からマージチェックを行う。
実行時に、軽量なトラバーサは、子マクロに対するベースモデルの意図と一致します。
論文 参考訳(メタデータ) (2026-01-30T16:25:08Z) - DepRadar: Agentic Coordination for Context Aware Defect Impact Analysis in Deep Learning Libraries [12.07621297131295]
DepRadarは、DLライブラリのアップデートにおけるきめ細かい欠陥と影響分析のためのエージェント調整フレームワークである。
静的解析とDL固有のドメインルールを統合し、欠陥推論とクライアント側のトレースを行う。
122のクライアントプログラムにおいて、DepRadarは90%のリコールと80%の精度で影響を受けるケースを特定し、他のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-14T12:41:39Z) - Quantifying Return on Security Controls in LLM Systems [0.0]
本稿では、残留リスクを定量化するための意思決定指向フレームワークを提案する。
敵のプローブの結果を金融リスク推定と戻り制御の指標に変換する。
論文 参考訳(メタデータ) (2025-12-17T04:58:09Z) - RoguePrompt: Dual-Layer Ciphering for Self-Reconstruction to Circumvent LLM Moderation [0.0]
本稿では,不正なユーザクエリを自己再構成プロンプトに変換する自動ジェイルブレイク攻撃を提案する。
GPT 4oに対してRoguePromptをインスタンス化し、2 448で評価すると、以前は強く拒否されていた生産モデレーションシステムであることが示唆される。
3つのセキュリティ関連の結果のバイパス、再構築、実行を分離する評価プロトコルの下で、攻撃は84.7%のバイパス、80.2%の再構築、および71.5パーセントの完全な実行を達成した。
論文 参考訳(メタデータ) (2025-11-24T05:42:54Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - Breaking the Code: Security Assessment of AI Code Agents Through Systematic Jailbreaking Attacks [11.371490212283383]
コード対応の大規模言語モデル(LLM)エージェントはソフトウェア工学に組み込まれ、コードを読み、書き、実行することができる。
JAWS-BENCHは、3つのエスカレーションワークスペースにまたがるベンチマークであり、攻撃能力を反映している。
JAWS-0のプロンプトのみの条件下では、コードエージェントは平均して61%の攻撃を受けており、58%が有害、52%がパース、27%がエンドツーエンドで実行される。
論文 参考訳(メタデータ) (2025-10-01T18:38:20Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。