論文の概要: BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents
- arxiv url: http://arxiv.org/abs/2406.03007v1
- Date: Wed, 5 Jun 2024 07:14:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 19:39:21.330675
- Title: BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents
- Title(参考訳): BadAgent: LLMエージェントのバックドア攻撃の実施と活性化
- Authors: Yifei Wang, Dizhan Xue, Shengjie Zhang, Shengsheng Qian,
- Abstract要約: 提案手法は,BadAgentというバックドア攻撃に対して脆弱であることを示す。
提案手法は信頼性のあるデータを微調整した後でも極めて堅牢である。
- 参考スコア(独自算出の注目度): 26.057916556444333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the prosperity of large language models (LLMs), powerful LLM-based intelligent agents have been developed to provide customized services with a set of user-defined tools. State-of-the-art methods for constructing LLM agents adopt trained LLMs and further fine-tune them on data for the agent task. However, we show that such methods are vulnerable to our proposed backdoor attacks named BadAgent on various agent tasks, where a backdoor can be embedded by fine-tuning on the backdoor data. At test time, the attacker can manipulate the deployed LLM agents to execute harmful operations by showing the trigger in the agent input or environment. To our surprise, our proposed attack methods are extremely robust even after fine-tuning on trustworthy data. Though backdoor attacks have been studied extensively in natural language processing, to the best of our knowledge, we could be the first to study them on LLM agents that are more dangerous due to the permission to use external tools. Our work demonstrates the clear risk of constructing LLM agents based on untrusted LLMs or data. Our code is public at https://github.com/DPamK/BadAgent
- Abstract(参考訳): 大規模言語モデル(LLM)の繁栄により、ユーザ定義ツールセットでカスタマイズされたサービスを提供するために、強力なLLMベースのインテリジェントエージェントが開発された。
LLMエージェントを構築するための最先端の手法は、訓練されたLLMを採用し、エージェントタスクのデータに基づいてそれらをさらに微調整する。
しかし,これらの手法は,バックドアデータを微調整してバックドアを埋め込む,BadAgentと呼ばれる様々なエージェントタスクに対して,提案したバックドア攻撃に対して脆弱であることを示す。
テスト時には、攻撃者はエージェントの入力や環境にトリガーを表示することで、デプロイされたLLMエージェントを操作して有害な操作を実行することができる。
驚いたことに、我々の提案した攻撃方法は信頼性のあるデータを微調整した後でも極めて堅牢である。
バックドア攻撃は自然言語処理において広範囲に研究されてきたが、私たちの知る限り、外部ツールの使用許可によりより危険であるLSMエージェントでそれらを最初に研究する可能性がある。
我々の研究は、信頼できないLSMやデータに基づいてLSMエージェントを構築することの明確なリスクを実証している。
私たちのコードはhttps://github.com/DPamK/BadAgentで公開されています。
関連論文リスト
- When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に対して脆弱である。
本稿では,自然言語説明の新しいレンズを用いたバックドア機能について検討する。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - When LLMs Go Online: The Emerging Threat of Web-Enabled LLMs [26.2943792874156]
個人データを含むサイバー攻撃における大規模言語モデル(LLM)の誤用に関連するリスクについて検討する。
具体的には,サイバーアタックの実施を指示されたLLMエージェントがいかに強力かを理解することを目的としている。
本稿では,PII(Personally Identible Information)の収集,偽造投稿の生成,スピアフィッシングメールの作成の3つの攻撃シナリオについて検討する。
論文 参考訳(メタデータ) (2024-10-18T16:16:34Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。
その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。
本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文 参考訳(メタデータ) (2024-08-20T10:44:29Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。
我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。
GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - Backdoor Removal for Generative Large Language Models [42.19147076519423]
生成型大規模言語モデル(LLM)は、理解から推論まで、様々な自然言語処理(NLP)タスクを支配している。
悪意のある敵は、毒データをオンラインで公開し、毒データに基づいて事前訓練された被害者のLSMに対するバックドア攻撃を行うことができる。
生成LDMの不要なバックドアマッピングを除去するためにSANDE(Simulate and Eliminate)を提案する。
論文 参考訳(メタデータ) (2024-05-13T11:53:42Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - LLM Agents can Autonomously Hack Websites [3.5248694676821484]
大規模言語モデル(LLM)がエージェントとして自律的に機能することを示す。
本研究では,LLMエージェントがWebサイトを自律的にハックできることを示す。
また、GPT-4は、野生のウェブサイトの脆弱性を自律的に発見できることも示している。
論文 参考訳(メタデータ) (2024-02-06T14:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。