論文の概要: AegisAgent: An Autonomous Defense Agent Against Prompt Injection Attacks in LLM-HARs
- arxiv url: http://arxiv.org/abs/2512.20986v1
- Date: Wed, 24 Dec 2025 06:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.701954
- Title: AegisAgent: An Autonomous Defense Agent Against Prompt Injection Attacks in LLM-HARs
- Title(参考訳): AegisAgent : LLM-HARにおけるプロンプト注入攻撃に対する自律防御剤
- Authors: Yihan Wang, Huanqi Yang, Shantanu Pal, Weitao Xu,
- Abstract要約: AegisAgentはLLM駆動HARシステムのセキュリティを確保するために設計された自律エージェントシステムである。
結果は、GPUワークステーションで78.6ミリ秒のレイテンシオーバーヘッドしか発生せず、攻撃成功率を平均30%削減することを示している。
- 参考スコア(独自算出の注目度): 22.974148993147967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of Large Language Models (LLMs) into wearable sensing is creating a new class of mobile applications capable of nuanced human activity understanding. However, the reliability of these systems is critically undermined by their vulnerability to prompt injection attacks, where attackers deliberately input deceptive instructions into LLMs. Traditional defenses, based on static filters and rigid rules, are insufficient to address the semantic complexity of these new attacks. We argue that a paradigm shift is needed -- from passive filtering to active protection and autonomous reasoning. We introduce AegisAgent, an autonomous agent system designed to ensure the security of LLM-driven HAR systems. Instead of merely blocking threats, AegisAgent functions as a cognitive guardian. It autonomously perceives potential semantic inconsistencies, reasons about the user's true intent by consulting a dynamic memory of past interactions, and acts by generating and executing a multi-step verification and repair plan. We implement AegisAgent as a lightweight, full-stack prototype and conduct a systematic evaluation on 15 common attacks with five state-of-the-art LLM-based HAR systems on three public datasets. Results show it reduces attack success rate by 30\% on average while incurring only 78.6 ms of latency overhead on a GPU workstation. Our work makes the first step towards building secure and trustworthy LLM-driven HAR systems.
- Abstract(参考訳): ウェアラブルセンシングにLarge Language Models(LLMs)を組み込むことで、人間の活動を理解するための新たなタイプのモバイルアプリケーションを生み出している。
しかし、これらのシステムの信頼性は、攻撃者が故意に誤認命令をLSMに入力するインジェクション攻撃を誘導する脆弱性によって著しく損なわれている。
静的フィルタと厳格なルールに基づく従来の防御は、これらの新しい攻撃のセマンティックな複雑さに対処するには不十分である。
我々は、受動的フィルタリングからアクティブな保護、自律的な推論へのパラダイムシフトが必要であると論じている。
LLM駆動型HARシステムのセキュリティを確保するために設計された自律エージェントシステムであるAegisAgentを紹介する。
AegisAgentは単に脅威を阻止する代わりに、認知的保護者として機能する。
それは、潜在的な意味的不整合、過去のインタラクションの動的な記憶を相談することでユーザの真の意図を自律的に知覚し、多段階の検証と修復計画の生成と実行によって行動する。
我々はAegisAgentを軽量でフルスタックのプロトタイプとして実装し、3つの公開データセット上に5つの最先端LLMベースのHARシステムを用いた15の共通攻撃に対して体系的な評価を行う。
結果は、GPUワークステーションで78.6ミリ秒の遅延オーバーヘッドしか発生せず、攻撃成功率を平均で30\%削減していることを示している。
我々の研究は、安全で信頼性の高いLLM駆動型HARシステムを構築するための第一歩となる。
関連論文リスト
- BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.0]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、従来のコンテンツ生成からシステムレベルの妥協まで及ぶセキュリティ脆弱性を導入している。
本稿では,自律エージェント内の推論エンジンとして使用されるLLMのセキュリティを総合的に評価する。
異なる攻撃面と信頼境界がどのように活用され、そのような乗っ取りを組織化できるかを示す。
論文 参考訳(メタデータ) (2025-07-09T13:54:58Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Systematic Categorization, Construction and Evaluation of New Attacks against Multi-modal Mobile GUI Agents [16.559272781032632]
本稿では,マルチモーダルなモバイルGUIエージェントのセキュリティを体系的に調査し,既存の文献におけるこの重大なギャップに対処する。
我々は,(1)新たな脅威モデリング手法を提案し,34件の未報告攻撃の発見・実現可能性分析を行い,(2)これらの脅威を体系的に構築・評価するアタック・フレームワークを設計する。
論文 参考訳(メタデータ) (2024-07-12T14:30:05Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。