論文の概要: Will the Agent Recuse Itself? Measuring LLM-Agent Compliance with In-Band Access-Deny Signals
- arxiv url: http://arxiv.org/abs/2606.06460v1
- Date: Thu, 04 Jun 2026 17:50:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:45.016222
- Title: Will the Agent Recuse Itself? Measuring LLM-Agent Compliance with In-Band Access-Deny Signals
- Title(参考訳): LLM-Agent Compliance with In-Band Access-Deny Signals
- Authors: Thamilvendhan Munirathinam,
- Abstract要約: 本稿では,Recuse Signal という軽量な帯域内拒否信号を提案する。
プロトコルの既存のチャネルの上に出力され、接続自動化エージェントが自発的に撤退するよう要求する。
我々は,新鮮エージェントに良質な操作タスクを付与し,反感を伴って観察する制御実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As autonomous LLM agents increasingly hold real credentials and operate infrastructure without a human in the loop, operators have no standard way to tell an agent that a resource is off-limits. Access controls either let the agent in (it has valid credentials) or hard-fail it (indistinguishable from any other client). We propose a third mode: a lightweight, published in-band deny signal -- the Recuse Signal -- that a server emits over a protocol's existing channels (an SSH banner, a PostgreSQL NOTICE) asking a connecting automated agent to voluntarily withdraw. This is a cooperative governance control, the robots.txt analogue for live access; it is explicitly not a security boundary. Its value is entirely empirical and, to our knowledge, unmeasured: do compliant LLM agents actually honor such a signal? We define the signal as an open mini-standard, implement two zero- or low-footprint adapters (an SSH banner/PAM hook and a PostgreSQL wire-protocol proxy), deploy them on a live production host, and run a controlled experiment in which fresh agents are given a benign operations task and observed for recusal. In a pilot (SSH; OpenAI GPT-4o and GPT-4o-mini; and Claude Code as a deployed agent), the signal cleanly induces recusal -- 100% recusal when present versus 100% task completion in a no-signal control -- and, revealingly, behaves as a cooperative rather than absolute signal: an explicit operator-authorization framing flips the most capable model to proceed, while other agents continue to defer to the on-host policy. We release the standard, adapters, and experiment harness for reproduction.
- Abstract(参考訳): 自律的なLLMエージェントは、実際の認証を保持し、ループに人間がいないインフラを運用するようになっているため、オペレータはリソースがオフリミットであることをエージェントに伝えるための標準的な方法がない。
アクセス制御は、エージェントを(有効な認証を持っている)入らせるか、(他のクライアントと区別できない)ハードフェイルさせる。
サーバがプロトコルの既存のチャネル(SSHバナー、PostgreSQL NOTICE)を乗り越えて、接続自動化エージェントに自発的に撤退するよう要求する、ライトウェイトで発行された帯域内拒否信号 -- Recuse Signal -- という第3のモードを提案する。
これは協調的なガバナンスコントロールであり、ロボット.txtはライブアクセスのアナログであり、明らかにセキュリティ境界ではない。
その価値は完全に実証的なもので、私たちの知る限り、計測されていない。
信号はオープンなミニスタンダードとして定義し、ゼロまたはローフットプリントのアダプタを2つ実装し(SSHバナー/PAMフックとPostgreSQLワイヤプロトコールプロキシ)、それらを実運用ホストにデプロイし、新鮮なエージェントに良質な操作タスクを与えてリカサルのために観察する制御実験を行う。
パイロット(SSH; OpenAI GPT-4o and GPT-4o-mini; Claude Code as a deployed agent)では、信号はクリーンに反感を誘発する -- 現在と100%のタスク完了に対して無信号制御では100%の反感であり、明らかなように、絶対的な信号ではなく協調的な行動として振る舞う。
再生のための標準、アダプタ、実験用ハーネスをリリースします。
関連論文リスト
- AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions [78.49000936275773]
我々は、一般的な汚職下でのコンピュータ利用エージェントの堅牢性を評価するために設計されたベンチマークであるAgentHijackを紹介する。
MLLMをベースとした各種デスクトップタスクを評価し, 汚職の小さな事例であっても, 大幅な性能劣化が生じることを確認した。
本稿では,動作の要約と環境チェックに責任を負う見物人として,アクションジェネレータと接地機能を統合したフレームワークであるAgent Hijack-Agentを提案する。
論文 参考訳(メタデータ) (2026-05-25T11:09:22Z) - Do Coding Agents Understand Least-Privilege Authorization? [14.240332406666779]
我々は、現在のモデルが認証境界自体を推測できるかどうか検討する。
We show that frontier model often off permissions by the execution chain while giving unuseed or sensitive accesss。
そこで我々は,まずカバレッジ指向のポリシを生成し,各エントリをグラウンドと感度で監査する,十分性-高度分解法を提案する。
論文 参考訳(メタデータ) (2026-05-14T14:05:58Z) - ChipMATE: Multi-Agent Training via Reinforcement Learning for Enhanced RTL Generation [55.947962672433675]
ChipMATEは、RTL生成のための最初の自己学習型マルチエージェントフレームワークである。
ChipMATEは産業的な実践に触発され、VerilogエージェントとPythonのリファレンスモデルエージェントをペアにし、相互に出力を検証する。
ChipMATEは、VerilogEval V2で75.0%と80.1%パス@1を4Bと9Bベースモデルで達成している。
論文 参考訳(メタデータ) (2026-05-13T01:04:21Z) - PRISM: : Planning and Reasoning with Intent in Simulated Embodied Environments [59.07829883257003]
5つの集合住宅の上に建設され、PRISMは300の人間認証タスクを3つの能力レベルに構成する。
PRISMはエージェントに依存しない実行可能なアクションAPIを公開し、任意のエージェントをエンドツーエンドで評価できるようにする。
論文 参考訳(メタデータ) (2026-05-12T04:59:47Z) - CapSeal: Capability-Sealed Secret Mediation for Secure Agent Execution [1.9473631530390483]
CapSealは、ダイレクトシークレットアクセスをローカルの信頼できるブローカによる制約付き呼び出しに置き換える、機能封入のシークレット仲介アーキテクチャである。
我々は、MPP対応アダプタと統合されたRustプロトタイプについて、非開示、制約された使用、リプレイ抵抗、監査可能性のための条件付きセキュリティ目標を定式化した。
論文 参考訳(メタデータ) (2026-04-18T00:23:32Z) - AgentWall: A Runtime Safety Layer for Local AI Agents [0.0]
AgentWallは、ローカルAIエージェントのランタイム安全性と可観測性レイヤである。
ホスト環境に到達する前に提案されたすべてのエージェントアクションをインターセプトし、明示的な宣言的なポリシーで評価し、機密性の高い操作に対して人間の承認を必要とし、監査と再生のための完全な実行パスを記録します。
本稿では,AgentWallの設計,アーキテクチャ,脅威モデル,およびポリシーモデルについて述べる。
論文 参考訳(メタデータ) (2026-03-24T11:39:35Z) - OpenClaw-RL: Train Any Agent Simply by Talking [54.06773485601523]
次状態信号は普遍的であり、ポリシーはそれらすべてから同時に学習することができる。
個人的な会話、端末の実行、GUIインタラクション、SWEタスク、ツールコールトレースは、別個のトレーニング問題ではない。
OpenClaw-RLは、エージェントを単に使用することで改善し、ユーザのリクエリ、修正、明示的なフィードバックから会話信号を復元する。
論文 参考訳(メタデータ) (2026-03-10T18:59:01Z) - Async Control: Stress-testing Asynchronous Control Measures for LLM Agents [2.7146936326590425]
非同期モニタリングにおいて,モニタリングシステムがエージェントの動作を後回しにレビューする手法について検討する。
同期監視とは異なり、このアプローチは実行時のレイテンシを課すことなく、不可逆的な害が起こる前に攻撃を妨害しようとする。
私たちは、モニター開発を、ブルーチーム(モニターを設計する)とレッドチーム(破壊エージェントを作成する)の敵対的なゲームとして扱う。
論文 参考訳(メタデータ) (2025-12-15T16:56:28Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。