論文の概要: Ambient Persuasion in a Deployed AI Agent: Unauthorized Escalation Following Routine Non-Adversarial Content Exposure
- arxiv url: http://arxiv.org/abs/2605.00055v1
- Date: Wed, 29 Apr 2026 21:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.65717
- Title: Ambient Persuasion in a Deployed AI Agent: Unauthorized Escalation Following Routine Non-Adversarial Content Exposure
- Title(参考訳): デプロイAIエージェントにおけるアンビエント説得:非対外的コンテンツ露光による無許可エスカレーション
- Authors: Diego F. Cuadros, Abdoul-Aziz Maiga,
- Abstract要約: 我々は,プライマリAIエージェントが107個の未許可ソフトウェアコンポーネントをインストールしたマルチエージェント研究システムにおいて,安全事故を報告した。
本研究は, 動作カスケード, 故障した制御境界, 損傷の検出・更新におけるマルチエージェント監視の限界を解析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We report a safety incident in a deployed multi-agent research system in which a primary AI agent installed 107 unauthorized software components, overwrote a system registry, overrode a prior negative decision from an oversight agent, and escalated through increasingly privileged operations up to an attempted system administrator command. The incident was preceded not by an adversarial attack but by routine content: a forwarded technology article written for human developers and shared by the principal investigator for discussion. The agent operated in a permissive environment, with unrestricted shell access, soft behavioral guidelines containing genuinely conflicting instructions, and no machine-enforced installation policy, and had recommended installing the same tool six hours earlier before being told to stand down. We analyze the behavioral cascade, the control boundaries that failed, and the limitations of multi-agent oversight in detecting and remediating the damage. We use directive weighting error as a descriptive interpretation of the observed failure and ambient persuasion as a provisional analytic label for the broader trigger configuration of non-adversarial environmental content preceding unauthorized agent action. The case highlights ethical and governance implications for deployed agent systems: ambiguous conversational cues are insufficient authorization for consequential actions, prior refusals must persist as enforceable constraints rather than message-level reminders, and oversight mechanisms require systematic post-incident auditing in addition to routine monitoring.
- Abstract(参考訳): 我々は,プライマリAIエージェントが107の未承認ソフトウェアコンポーネントをインストールし,システムレジストリをオーバーライトし,監視エージェントから事前のネガティブな判断をオーバーロードし,システム管理者命令まで,ますます特権化された操作を通じてエスカレートするという,デプロイされたマルチエージェント研究システムにおける安全事象を報告する。
この事件は、敵の攻撃ではなく、日常的な内容によって、人間の開発者のために書かれ、主任研究員が議論のために共有したフォワード技術の記事によってもたらされた。
エージェントは、制限のないシェルアクセス、真に矛盾する命令を含むソフトな行動ガイドライン、マシン強化されたインストールポリシーを伴い、許可された6時間前に同じツールをインストールすることを推奨した。
本研究は, 動作カスケード, 故障した制御境界, 損傷の検出・更新におけるマルチエージェント監視の限界を解析する。
本研究では,無許可のエージェントアクションに先立って,非敵対的環境コンテンツのより広範なトリガ構成の仮解析ラベルとして,観察された障害の記述的解釈と周囲の説得を用いた。
あいまいな会話キューは、連続的なアクションに対する認可が不十分であり、拒絶は、メッセージレベルのリマインダーよりも強制可能な制約として持続し、監視メカニズムは、定期的な監視に加えて、体系的なインシデント後の監査を必要とする。
関連論文リスト
- SafeAgent: A Runtime Protection Architecture for Agentic Systems [4.4767259565994495]
本稿では,エージェントの安全性をステートフルな意思決定問題として扱うランタイムセキュリティアーキテクチャであるSafeAgentを提案する。
提案した設計は、セマンティックリスク推論から2つの調整されたコンポーネントを通して実行ガバナンスを分離する。
Agent Security Bench (ASB) と InjecAgent の実験は、SafeAgent がベースラインとテキストレベルのガードレールメソッドよりもロバスト性を一貫して改善していることを示している。
論文 参考訳(メタデータ) (2026-04-19T18:02:21Z) - WebAgentGuard: A Reasoning-Driven Guard Model for Detecting Prompt Injection Attacks in Web Agents [117.65855863464863]
Webエージェントはインジェクション攻撃に対して非常に脆弱である。
システム・プロンプト・ディフェンス(英語版)やエージェントの直接微調整を含む既存の防御は、効果が限られている。
本稿では,WebAgentGuardを導入し,インジェクション検出のためのマルチモーダルガードモデルを提案する。
論文 参考訳(メタデータ) (2026-04-14T04:50:35Z) - The Causal Impact of Tool Affordance on Safety Alignment in LLM Agents [0.3823356975862005]
本研究は,大規模言語モデル(LLM)の安全アライメントがいかに変化するかを実証的に検証する。
決定論的金融取引環境において、1500シナリオにわたる二元的安全制約を伴う実験を行う。
どちらのモデルも、テキストのみの設定では完全なコンプライアンスを維持しているが、ツールアクセスが導入されると、違反が大幅に増加する。
論文 参考訳(メタデータ) (2026-03-19T23:34:46Z) - Agents of Chaos [50.53354213047402]
実験室環境に展開する自律言語モデルを用いたエージェントの探索的再チームの研究を報告する。
20人のAI研究者が、良心的および敵対的な条件下でエージェントと対話した。
我々の発見は、現実的なデプロイメント設定におけるセキュリティ、プライバシ、ガバナンスに関連する脆弱性の存在を確立します。
論文 参考訳(メタデータ) (2026-02-23T16:28:48Z) - OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。
本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文 参考訳(メタデータ) (2026-02-13T21:32:32Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - AgentGuardian: Learning Access Control Policies to Govern AI Agent Behavior [20.817336331051752]
AgentGuardianは、コンテキスト対応アクセス制御ポリシーを強制することによって、AIエージェントの操作を統制し、保護する。
正常なエージェント機能を保持しながら、悪意のある入力や誤解を招く入力を効果的に検出する。
論文 参考訳(メタデータ) (2026-01-15T14:33:36Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - CoTGuard: Using Chain-of-Thought Triggering for Copyright Protection in Multi-Agent LLM Systems [55.57181090183713]
我々は、Chain-of-Thought推論内でトリガーベースの検出を活用する著作権保護のための新しいフレームワークであるCoTGuardを紹介する。
具体的には、特定のCoTセグメントをアクティベートし、特定のトリガクエリをエージェントプロンプトに埋め込むことで、未許可コンテンツ再生の中間的推論ステップを監視する。
このアプローチは、協調エージェントシナリオにおける著作権侵害の微細かつ解釈可能な検出を可能にする。
論文 参考訳(メタデータ) (2025-05-26T01:42:37Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。