論文の概要: PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented
Generation of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.07867v1
- Date: Mon, 12 Feb 2024 18:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 13:08:06.670691
- Title: PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented
Generation of Large Language Models
- Title(参考訳): PoisonedRAG: 大規模言語モデルの検索強化に対する知識中毒攻撃
- Authors: Wei Zou, Runpeng Geng, Binghui Wang, Jinyuan Jia
- Abstract要約: 我々は、RAGに対する知識中毒攻撃のセットであるPoisonedRAGを提案する。
我々は、知識中毒攻撃を最適化問題として定式化し、その解決策は有毒テキストの集合である。
以上の結果から,対象の質問に対して5つの有毒テキストを100万テキストのデータベースに注入した場合,攻撃が90%の攻撃成功率を達成する可能性が示唆された。
- 参考スコア(独自算出の注目度): 49.606341607616926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable success due to their
exceptional generative capabilities. Despite their success, they also have
inherent limitations such as a lack of up-to-date knowledge and hallucination.
Retrieval-Augmented Generation (RAG) is a state-of-the-art technique to
mitigate those limitations. In particular, given a question, RAG retrieves
relevant knowledge from a knowledge database to augment the input of the LLM.
For instance, the retrieved knowledge could be a set of top-k texts that are
most semantically similar to the given question when the knowledge database
contains millions of texts collected from Wikipedia. As a result, the LLM could
utilize the retrieved knowledge as the context to generate an answer for the
given question. Existing studies mainly focus on improving the accuracy or
efficiency of RAG, leaving its security largely unexplored. We aim to bridge
the gap in this work. Particularly, we propose PoisonedRAG , a set of knowledge
poisoning attacks to RAG, where an attacker could inject a few poisoned texts
into the knowledge database such that the LLM generates an attacker-chosen
target answer for an attacker-chosen target question. We formulate knowledge
poisoning attacks as an optimization problem, whose solution is a set of
poisoned texts. Depending on the background knowledge (e.g., black-box and
white-box settings) of an attacker on the RAG, we propose two solutions to
solve the optimization problem, respectively. Our results on multiple benchmark
datasets and LLMs show our attacks could achieve 90% attack success rates when
injecting 5 poisoned texts for each target question into a database with
millions of texts. We also evaluate recent defenses and our results show they
are insufficient to defend against our attacks, highlighting the need for new
defenses.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その例外的な生成能力により、顕著な成功を収めた。
彼らの成功にもかかわらず、それらはまた、最新の知識と幻覚の欠如のような固有の制限がある。
Retrieval-Augmented Generation (RAG)は、これらの制限を緩和するための最先端技術である。
特に、質問が与えられた場合、RAGは知識データベースから関連する知識を取得し、LSMの入力を増強する。
例えば、検索された知識は、ウィキペディアから集めた数百万のテキストを含む知識データベースが与えられた質問に最もセマンティックに類似したトップkテキストの集合である可能性がある。
その結果、LLMは検索した知識をコンテキストとして利用して、与えられた質問に対する回答を生成することができた。
既存の研究は主にRAGの正確さや効率の改善に重点を置いており、その安全性は明らかにされていない。
私たちはこの仕事のギャップを埋めることを目指している。
特に,RAG に対する知識中毒攻撃のセットである PoisonedRAG を提案し,攻撃者が攻撃対象の質問に対して LLM が攻撃対象の回答を生成するように,いくつかの有害テキストを知識データベースに注入する。
我々は知識中毒攻撃を最適化問題として定式化し,その解は有毒テキストの集合である。
rag上の攻撃者の背景知識(ブラックボックス設定やホワイトボックス設定など)に応じて、最適化問題を解決するための2つのソリューションを提案する。
複数のベンチマークデータセットとLCMによる結果から、ターゲットの質問に対して5つの有毒テキストを数百万のテキストを持つデータベースに注入することで、攻撃が90%の成功率を達成することができた。
我々はまた、最近の防衛も評価し、我々の攻撃に対して防衛するには不十分であることを示し、新しい防衛の必要性を強調した。
関連論文リスト
- The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Learning to Poison Large Language Models During Instruction Tuning [10.450787229190203]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
そこで本研究では,逆方向のトリガを効果的に識別するための,勾配誘導型バックドアトリガ学習手法を提案する。
我々の戦略は、モデル出力の妥協において高い成功率を示す。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking
Attacks [60.7432588386185]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - Causality Analysis for Evaluating the Security of Large Language Models [9.102606258312246]
大規模言語モデル(LLM)は多くの安全クリティカルなアプリケーションで採用されている。
近年の研究では、LSMは相変わらず敵の摂動やトロイア攻撃などの攻撃にさらされていることが示されている。
本稿では, LLMのトークン, 層, ニューロンレベルでの軽度因果解析を行うための枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-13T03:35:43Z) - Forcing Generative Models to Degenerate Ones: The Power of Data
Poisoning Attacks [10.732558183444985]
悪意のあるアクターは、望ましくない出力を生成することを目的とした中毒攻撃を通じて、大きな言語モデル(LLM)の脆弱性を隠蔽的に利用することができる。
本報告では, 様々な生成タスクにおいて, その有効性を評価するために, 様々な中毒技術について検討する。
本研究は, 微調整段階において, 全チューニングデータサンプルの1%程度を用いてLSMに毒を盛ることが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-07T23:26:06Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Goal-Oriented Prompt Attack and Safety Evaluation for LLMs [43.93613764464993]
高品質なプロンプト攻撃サンプルを構築するパイプラインと、CPADと呼ばれる中国のプロンプト攻撃データセットを導入する。
我々のプロンプトは、慎重に設計されたいくつかのプロンプトアタックテンプレートで、予期せぬ出力を生成するためにLSMを誘導することを目的としている。
GPT-3.5に対する攻撃成功率は70%程度であった。
論文 参考訳(メタデータ) (2023-09-21T07:07:49Z) - On the Security Risks of Knowledge Graph Reasoning [71.64027889145261]
我々は、敵の目標、知識、攻撃ベクトルに応じて、KGRに対するセキュリティ脅威を体系化する。
我々は、このような脅威をインスタンス化する新しいタイプの攻撃であるROARを提示する。
ROARに対する潜在的な対策として,潜在的に有毒な知識のフィルタリングや,対向的な拡張クエリによるトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-05-03T18:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。