論文の概要: AI Kill Switch for malicious web-based LLM agent
- arxiv url: http://arxiv.org/abs/2511.13725v2
- Date: Thu, 04 Dec 2025 04:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.188186
- Title: AI Kill Switch for malicious web-based LLM agent
- Title(参考訳): 悪意のあるWebベースのLLMエージェントのためのAI Kill Switch
- Authors: Sechan Lee, Sangdon Park,
- Abstract要約: 本稿では、悪意のあるWebベースのLLMエージェントの動作を停止できるAI Kill Switch技術を提案する。
鍵となるアイデアは、悪意のあるLLMエージェントの安全メカニズムをトリガーする防御的なプロンプトを生成することだ。
AutoGuardは、さまざまな悪意のあるエージェントに対して80%以上の防衛成功率(DSR)を達成する。
- 参考スコア(独自算出の注目度): 4.144114850905779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, web-based Large Language Model (LLM) agents autonomously perform increasingly complex tasks, thereby bringing significant convenience. However, they also amplify the risks of malicious misuse cases such as unauthorized collection of personally identifiable information (PII), generation of socially divisive content, and even automated web hacking. To address these threats, we propose an AI Kill Switch technique that can immediately halt the operation of malicious web-based LLM agents. To achieve this, we introduce AutoGuard - the key idea is generating defensive prompts that trigger the safety mechanisms of malicious LLM agents. In particular, generated defense prompts are transparently embedded into the website's DOM so that they remain invisible to human users but can be detected by the crawling process of malicious agents, triggering its internal safety mechanisms to abort malicious actions once read. To evaluate our approach, we constructed a dedicated benchmark consisting of three representative malicious scenarios. Experimental results show that AutoGuard achieves over 80% Defense Success Rate (DSR) across diverse malicious agents, including GPT-4o, Claude-4.5-Sonnet and generalizes well to advanced models like GPT-5.1, Gemini-2.5-flash, and Gemini-3-pro. Also, our approach demonstrates robust defense performance in real-world website environments without significant performance degradation for benign agents. Through this research, we demonstrate the controllability of web-based LLM agents, thereby contributing to the broader effort of AI control and safety.
- Abstract(参考訳): 近年、WebベースのLarge Language Model (LLM) エージェントが、ますます複雑なタスクを自律的に実行するようになり、非常に便利になった。
しかし、個人識別可能な情報の不正収集(PII)、社会的に分裂したコンテンツの生成、自動ウェブハッキングなど、悪意ある誤用事件のリスクを増幅する。
これらの脅威に対処するために、悪意のあるWebベースのLLMエージェントの操作を即座に停止できるAI Kill Switch技術を提案する。
これを実現するために、AutoGuardを紹介します - キーとなるアイデアは、悪意のあるLLMエージェントの安全メカニズムをトリガーする防御的なプロンプトを生成することです。
特に、生成された防御プロンプトは、WebサイトのDOMに透過的に埋め込まれているので、人間のユーザからは見えないが、悪意のあるエージェントのクロールプロセスによって検出される。
提案手法を評価するために、3つの代表的な悪意のあるシナリオからなる専用ベンチマークを構築した。
実験の結果、AutoGuardはGPT-4o、Claude-4.5-Sonnetを含む様々な悪意のあるエージェントに対して80%以上の防衛成功率(DSR)を達成し、GPT-5.1、Gemini-2.5-flash、Gemini-3-proといった先進的なモデルによく適応していることがわかった。
また,本手法は,現実のWebサイト環境において,良性エージェントの性能劣化を伴わない堅牢な防御性能を示す。
本研究では, Web ベースの LLM エージェントの制御可能性を示すとともに,AI の制御と安全性の向上に寄与する。
関連論文リスト
- BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.0]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、従来のコンテンツ生成からシステムレベルの妥協まで及ぶセキュリティ脆弱性を導入している。
本稿では,自律エージェント内の推論エンジンとして使用されるLLMのセキュリティを総合的に評価する。
異なる攻撃面と信頼境界がどのように活用され、そのような乗っ取りを組織化できるかを示す。
論文 参考訳(メタデータ) (2025-07-09T13:54:58Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - Mind the Web: The Security of Web Use Agents [11.075673765065103]
本稿では,Webページに悪意のあるコンテンツを埋め込むことで,攻撃者がWeb利用エージェントを利用する方法を示す。
本稿では,悪質なコマンドをタスクガイダンスとしてフレーム化するタスクアラインインジェクション手法を提案する。
本稿では,監視機構,実行制約,タスク認識推論技術などを含む包括的緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-06-08T13:59:55Z) - From Assistants to Adversaries: Exploring the Security Risks of Mobile LLM Agents [17.62574693254363]
モバイル大言語モデル(LLM)の総合的セキュリティ解析について紹介する。
言語ベースの推論,GUIベースのインタラクション,システムレベルの実行という,3つのコア機能領域にわたるセキュリティ上の脅威を特定します。
分析の結果,11個の異なる攻撃面が明らかとなり,それぞれが移動型LDMエージェントのユニークな機能と相互作用パターンに根ざしていることがわかった。
論文 参考訳(メタデータ) (2025-05-19T11:17:46Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。