論文の概要: In-Context Defense in Computer Agents: An Empirical Study
- arxiv url: http://arxiv.org/abs/2503.09241v1
- Date: Wed, 12 Mar 2025 10:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:30.676080
- Title: In-Context Defense in Computer Agents: An Empirical Study
- Title(参考訳): コンピュータエージェントにおけるインテクスト・ディフェンス--実証的研究
- Authors: Pei Yang, Hai Ci, Mike Zheng Shou,
- Abstract要約: 我々は,テキスト・コンテクスト・ディフェンスを導入し,コンテキスト内学習とチェーン・オブ・シークレット・推論を活用して攻撃に対処する。
我々のアプローチは、悪意のある環境とそれに対応する防御応答の両方を含む、慎重にキュレートされた例題の小さなセットでエージェントのコンテキストを増強することである。
提案手法の有効性を実証し, ポップアップウィンドウ攻撃では91.2%, 環境注入攻撃では74.6%, 邪魔広告に対しては100%の防御効果が得られた。
- 参考スコア(独自算出の注目度): 19.734768644310414
- License:
- Abstract: Computer agents powered by vision-language models (VLMs) have significantly advanced human-computer interaction, enabling users to perform complex tasks through natural language instructions. However, these agents are vulnerable to context deception attacks, an emerging threat where adversaries embed misleading content into the agent's operational environment, such as a pop-up window containing deceptive instructions. Existing defenses, such as instructing agents to ignore deceptive elements, have proven largely ineffective. As the first systematic study on protecting computer agents, we introduce textbf{in-context defense}, leveraging in-context learning and chain-of-thought (CoT) reasoning to counter such attacks. Our approach involves augmenting the agent's context with a small set of carefully curated exemplars containing both malicious environments and corresponding defensive responses. These exemplars guide the agent to first perform explicit defensive reasoning before action planning, reducing susceptibility to deceptive attacks. Experiments demonstrate the effectiveness of our method, reducing attack success rates by 91.2% on pop-up window attacks, 74.6% on average on environment injection attacks, while achieving 100% successful defenses against distracting advertisements. Our findings highlight that (1) defensive reasoning must precede action planning for optimal performance, and (2) a minimal number of exemplars (fewer than three) is sufficient to induce an agent's defensive behavior.
- Abstract(参考訳): 視覚言語モデル(VLM)を利用したコンピュータエージェントは、人間とコンピュータの相互作用が大幅に進歩し、自然言語命令によって複雑なタスクを実行できる。
しかし、これらのエージェントは、偽りの指示を含むポップアップウィンドウなど、エージェントの運用環境に、敵が誤解を招くコンテンツを埋め込むという新たな脅威である、コンテキスト偽造攻撃に対して脆弱である。
既存の防御、例えば、偽りの要素を無視するようエージェントに指示するなど、ほとんど効果がないことが証明されている。
コンピュータエージェントの保護に関する最初の体系的研究として,テキスト内学習とチェーン・オブ・シント(CoT)推論を活用して,このような攻撃に対処するtextbf{in-context defense}を導入する。
我々のアプローチは、悪意のある環境とそれに対応する防御応答の両方を含む、慎重にキュレートされた例題の小さなセットでエージェントのコンテキストを増強することである。
これらの見習いは、エージェントが行動計画の前に明確な防御的推論を行うように誘導し、騙し攻撃に対する感受性を低下させる。
提案手法の有効性を実証し, ポップアップウィンドウ攻撃では91.2%, 環境注入攻撃では74.6%, 邪魔広告に対しては100%の防御効果が得られた。
その結果,(1) 防御的推論は, 最適な行動計画に先行する必要があり, (2) エージェントの防御行動を誘導するのには, 最小限の例(3つ未満)が十分であることがわかった。
関連論文リスト
- MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。
我々は新しいIPI防御であるMELONを提示する。
MELONは攻撃防止と実用保存の両方においてSOTA防御に優れていた。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents [27.701301913159067]
我々は、信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。
AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための環境である。
AgentDojoには97の現実的なタスク、629のセキュリティテストケースと、文献からのさまざまな攻撃および防御パラダイムが組み込まれています。
論文 参考訳(メタデータ) (2024-06-19T08:55:56Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Large Language Model Sentinel: LLM Agent for Adversarial Purification [27.461127931996323]
大規模言語モデル(LLM)は、よく設計されたテキストの摂動による敵攻撃に対して脆弱である。
LLAMOS(Large LAnguage Model Sentinel)と呼ばれる新しい防御技術を導入し,LLMの対角的堅牢性を高める。
論文 参考訳(メタデータ) (2024-05-24T07:23:56Z) - Air Gap: Protecting Privacy-Conscious Conversational Agents [44.04662124191715]
敵のサードパーティアプリがインタラクションのコンテキストを操作して,LDMベースのエージェントを騙して,そのタスクに関係のない個人情報を明らかにする,新たな脅威モデルを導入する。
本研究では,特定のタスクに必要なデータのみへのアクセスを制限することで,意図しないデータ漏洩を防止するために設計されたプライバシ意識エージェントであるAirGapAgentを紹介する。
論文 参考訳(メタデータ) (2024-05-08T16:12:45Z) - MPAT: Building Robust Deep Neural Networks against Textual Adversarial
Attacks [4.208423642716679]
本稿では,敵対的攻撃に対する堅牢な深層ニューラルネットワーク構築のための悪質な摂動に基づく敵対的訓練法を提案する。
具体的には、悪意のある摂動を伴う敵例を生成するために、多段階の悪意のあるサンプル生成戦略を構築する。
本研究では, 目標達成のために, 目標達成のための新たな訓練目標関数を, 本来のタスクの性能を損なうことなく採用する。
論文 参考訳(メタデータ) (2024-02-29T01:49:18Z) - Training Automated Defense Strategies Using Graph-based Cyber Attack
Simulations [0.0]
自動サイバー防御エージェントの実装と評価を行う。
エージェントは、セキュリティアラートを入力として、強化学習を使用して、事前に定義された防御措置を実行するためのポリシーを学ぶ。
実験では、強化学習で訓練されたポリシーを用いた防御剤は、ポリシーを用いた優れたエージェントである。
論文 参考訳(メタデータ) (2023-04-17T07:52:00Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。