論文の概要: Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based
Agents
- arxiv url: http://arxiv.org/abs/2402.11208v1
- Date: Sat, 17 Feb 2024 06:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:35:20.827813
- Title: Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based
Agents
- Title(参考訳): エージェントに気をつけて!
LLMエージェントに対するバックドア脅威の調査
- Authors: Wenkai Yang, Xiaohan Bi, Yankai Lin, Sishuo Chen, Jie Zhou, Xu Sun
- Abstract要約: 我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
まず、エージェントバックドア攻撃の一般的な枠組みを定式化し、その後、エージェントバックドア攻撃の様々な形態について徹底的に分析する。
本稿では,2つの典型的なエージェント・タスクに対するエージェント・バックドア・アタックのバリエーションを実装するためのデータ中毒機構を提案する。
- 参考スコア(独自算出の注目度): 50.034049716274005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging the rapid development of Large Language Models LLMs, LLM-based
agents have been developed to handle various real-world applications, including
finance, healthcare, and shopping, etc. It is crucial to ensure the reliability
and security of LLM-based agents during applications. However, the safety
issues of LLM-based agents are currently under-explored. In this work, we take
the first step to investigate one of the typical safety threats, backdoor
attack, to LLM-based agents. We first formulate a general framework of agent
backdoor attacks, then we present a thorough analysis on the different forms of
agent backdoor attacks. Specifically, from the perspective of the final
attacking outcomes, the attacker can either choose to manipulate the final
output distribution, or only introduce malicious behavior in the intermediate
reasoning process, while keeping the final output correct. Furthermore, the
former category can be divided into two subcategories based on trigger
locations: the backdoor trigger can be hidden either in the user query or in an
intermediate observation returned by the external environment. We propose the
corresponding data poisoning mechanisms to implement the above variations of
agent backdoor attacks on two typical agent tasks, web shopping and tool
utilization. Extensive experiments show that LLM-based agents suffer severely
from backdoor attacks, indicating an urgent need for further research on the
development of defenses against backdoor attacks on LLM-based agents. Warning:
This paper may contain biased content.
- Abstract(参考訳): 大規模言語モデル LLM の急速な開発を生かした LLM ベースのエージェントは、金融、ヘルスケア、ショッピングなど、様々な現実世界のアプリケーションを扱うために開発されている。
LLMベースのエージェントの信頼性とセキュリティを確保することが重要である。
しかし、現在llmベースのエージェントの安全性の問題が検討中である。
本研究では, LLMをベースとしたエージェントに対して, 典型的な安全脅威であるバックドア攻撃の1つを調査する。
まず,エージェントバックドアアタックの汎用フレームワークを定式化し,エージェントバックドアアタックの異なる形態について詳細な分析を行った。
具体的には、最終攻撃結果の観点から、攻撃者は最終出力分布を操作するか、中間推論プロセスで悪意のある振る舞いのみを導入するか、最終出力を正しく保ちながら選択することができる。
さらに、以前のカテゴリはトリガー位置に基づいて2つのサブカテゴリに分けられる: バックドアトリガーは、ユーザクエリ内または外部環境によって返される中間観察中に隠蔽される。
本稿では,Webショッピングとツール利用の2つの典型的なエージェントタスクに対して,上記のエージェントバックドア攻撃のバリエーションを実装するためのデータ中毒機構を提案する。
大規模な実験により、LSMベースのエージェントがバックドア攻撃に重傷を負い、LDMベースのエージェントに対するバックドア攻撃に対する防御の開発について、さらなる研究の必要性が示唆された。
警告: この論文は偏りのある内容を含むかもしれない。
関連論文リスト
- InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated
Large Language Model Agents [3.8506666685467343]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。
InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。
エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2024-03-05T06:21:45Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an
MLLM Operative [57.84617923683107]
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
MLLMの直接有害な出力生成とは違って,1つのMLLMエージェントを微妙に影響してプロンプトを生成する方法を示す。
この微妙で強力な間接的影響の手法は、MLLMに関連するセキュリティリスクを著しくエスカレーションしている。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents through Agent
Constitution [48.84353890821038]
本稿では, エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
本研究では,計画立案戦略が計画立案に先立ってどのように安全知識を注入するか,計画立案戦略が計画立案時の安全性を高めること,計画立案後の検査による安全性を確保することを実証する。
我々は,安全性と利便性の複雑な関係,およびモデル推論能力と安全エージェントとしての有効性について検討する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z) - Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文 参考訳(メタデータ) (2023-11-20T15:50:09Z) - PoisonPrompt: Backdoor Attack on Prompt-based Large Language Models [11.693095252994482]
硬質および軟質のプロンプトベースのLLMを両立させる新しいバックドアアタックであるPOISONPROMPTを提案する。
本研究は,プロンプトをベースとしたLSMに対するバックドア攻撃によるセキュリティの脅威を浮き彫りにし,さらなる研究の必要性を強調した。
論文 参考訳(メタデータ) (2023-10-19T03:25:28Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Backdoor Learning: A Survey [75.59571756777342]
バックドア攻撃はディープニューラルネットワーク(DNN)に隠れたバックドアを埋め込む
バックドア学習は、急速に成長する研究分野である。
本稿では,この領域を包括的に調査する。
論文 参考訳(メタデータ) (2020-07-17T04:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。