Fugu-MT 論文翻訳(概要): Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents

論文の概要: Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents

arxiv url: http://arxiv.org/abs/2402.11208v1
Date: Sat, 17 Feb 2024 06:48:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 22:35:20.827813
Title: Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents
Title（参考訳）: エージェントに気をつけて! LLMエージェントに対するバックドア脅威の調査
Authors: Wenkai Yang, Xiaohan Bi, Yankai Lin, Sishuo Chen, Jie Zhou, Xu Sun
Abstract要約: 我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。まず、エージェントバックドア攻撃の一般的な枠組みを定式化し、その後、エージェントバックドア攻撃の様々な形態について徹底的に分析する。本稿では,2つの典型的なエージェント・タスクに対するエージェント・バックドア・アタックのバリエーションを実装するためのデータ中毒機構を提案する。
参考スコア（独自算出の注目度）: 50.034049716274005
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Leveraging the rapid development of Large Language Models LLMs, LLM-based agents have been developed to handle various real-world applications, including finance, healthcare, and shopping, etc. It is crucial to ensure the reliability and security of LLM-based agents during applications. However, the safety issues of LLM-based agents are currently under-explored. In this work, we take the first step to investigate one of the typical safety threats, backdoor attack, to LLM-based agents. We first formulate a general framework of agent backdoor attacks, then we present a thorough analysis on the different forms of agent backdoor attacks. Specifically, from the perspective of the final attacking outcomes, the attacker can either choose to manipulate the final output distribution, or only introduce malicious behavior in the intermediate reasoning process, while keeping the final output correct. Furthermore, the former category can be divided into two subcategories based on trigger locations: the backdoor trigger can be hidden either in the user query or in an intermediate observation returned by the external environment. We propose the corresponding data poisoning mechanisms to implement the above variations of agent backdoor attacks on two typical agent tasks, web shopping and tool utilization. Extensive experiments show that LLM-based agents suffer severely from backdoor attacks, indicating an urgent need for further research on the development of defenses against backdoor attacks on LLM-based agents. Warning: This paper may contain biased content.
Abstract（参考訳）: 大規模言語モデル LLM の急速な開発を生かした LLM ベースのエージェントは、金融、ヘルスケア、ショッピングなど、様々な現実世界のアプリケーションを扱うために開発されている。 LLMベースのエージェントの信頼性とセキュリティを確保することが重要である。しかし、現在llmベースのエージェントの安全性の問題が検討中である。本研究では, LLMをベースとしたエージェントに対して, 典型的な安全脅威であるバックドア攻撃の1つを調査する。まず,エージェントバックドアアタックの汎用フレームワークを定式化し,エージェントバックドアアタックの異なる形態について詳細な分析を行った。具体的には、最終攻撃結果の観点から、攻撃者は最終出力分布を操作するか、中間推論プロセスで悪意のある振る舞いのみを導入するか、最終出力を正しく保ちながら選択することができる。さらに、以前のカテゴリはトリガー位置に基づいて2つのサブカテゴリに分けられる: バックドアトリガーは、ユーザクエリ内または外部環境によって返される中間観察中に隠蔽される。本稿では,Webショッピングとツール利用の2つの典型的なエージェントタスクに対して,上記のエージェントバックドア攻撃のバリエーションを実装するためのデータ中毒機構を提案する。大規模な実験により、LSMベースのエージェントがバックドア攻撃に重傷を負い、LDMベースのエージェントに対するバックドア攻撃に対する防御の開発について、さらなる研究の必要性が示唆された。警告: この論文は偏りのある内容を含むかもしれない。

関連論文リスト

Your Agent Can Defend Itself against Backdoor Attacks [0.0]
大規模言語モデル(LLM)を駆使したエージェントは、トレーニングと微調整の間、バックドア攻撃による重大なセキュリティリスクに直面している。本稿では,LDMをベースとしたエージェントに対するバックドア攻撃に対する新たな防御策であるReAgentを紹介する。
論文参考訳（メタデータ） (2025-06-10T01:45:56Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
DemonAgent: Dynamically Encrypted Multi-Backdoor Implantation Attack on LLM-based Agent [6.82059828237144]
我々は,textbfDynamically Encrypted Multi-Backdoor implantation Attackと呼ばれる新しいバックドアインプラント戦略を提案する。動的暗号化を導入し、バックドアを良質なコンテンツにマッピングし、安全監査を効果的に回避する。本稿では,エージェントバックドア攻撃の包括的評価を目的としたデータセットであるAgentBackdoorEvalを提案する。
論文参考訳（メタデータ） (2025-02-18T06:26:15Z)
Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文参考訳（メタデータ） (2025-02-12T17:19:36Z)
BLAST: A Stealthy Backdoor Leverage Attack against Cooperative Multi-Agent Deep Reinforcement Learning based Systems [11.776860619017867]
協調型多エージェント深層強化学習(c-MADRL)は、バックドア攻撃の脅威にさらされている。我々は,c-MADRLに対して,単一のエージェントに唯一のバックドアを埋め込むことで,マルチエージェントチーム全体を攻撃する新しいバックドアレバレッジアタックを提案する。
論文参考訳（メタデータ） (2025-01-03T01:33:29Z)
When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に対して脆弱である。本稿では,自然言語説明の新しいレンズを用いたバックドア機能について検討する。
論文参考訳（メタデータ） (2024-11-19T18:11:36Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文参考訳（メタデータ） (2024-08-20T10:44:29Z)
AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文参考訳（メタデータ） (2024-07-17T17:59:47Z)
GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。 GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文参考訳（メタデータ） (2024-06-13T14:49:26Z)
BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents [26.057916556444333]
提案手法は,BadAgentというバックドア攻撃に対して脆弱であることを示す。提案手法は信頼性のあるデータを微調整した後でも極めて堅牢である。
論文参考訳（メタデータ） (2024-06-05T07:14:28Z)
TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models [16.71019302192829]
大規模言語モデル(LLM)は、自然言語処理(NLP)において顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。本稿では,Retrieval-Augmented Generationにおいて,共同でバックドア攻撃を行うTrojanRAGを提案する。
論文参考訳（メタデータ） (2024-05-22T07:21:32Z)
Backdoor Removal for Generative Large Language Models [42.19147076519423]
生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
論文参考訳（メタデータ） (2024-05-13T11:53:42Z)
InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents [3.5248694676821484]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。 InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文参考訳（メタデータ） (2024-03-05T06:21:45Z)
Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込むバックドア学習は、急速に成長する研究分野である。本稿では,この領域を包括的に調査する。
論文参考訳（メタデータ） (2020-07-17T04:09:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。