論文の概要: PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.07867v2
- Date: Sun, 11 Aug 2024 21:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 23:57:57.476245
- Title: PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models
- Title(参考訳): PoisonedRAG: 大規模言語モデルの検索強化に対する知識破壊攻撃
- Authors: Wei Zou, Runpeng Geng, Binghui Wang, Jinyuan Jia,
- Abstract要約: 大規模言語モデル(LLM)は、その例外的な生成能力により、顕著な成功を収めた。
Retrieval-Augmented Generation (RAG)は、これらの制限を緩和するための最先端技術である。
RAGシステムにおける知識データベースは,新たな,実用的な攻撃面を導入している。
この攻撃面に基づいて,RAGに対する最初の知識汚職攻撃であるPoisonedRAGを提案する。
- 参考スコア(独自算出の注目度): 45.409248316497674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable success due to their exceptional generative capabilities. Despite their success, they also have inherent limitations such as a lack of up-to-date knowledge and hallucination. Retrieval-Augmented Generation (RAG) is a state-of-the-art technique to mitigate these limitations. The key idea of RAG is to ground the answer generation of an LLM on external knowledge retrieved from a knowledge database. Existing studies mainly focus on improving the accuracy or efficiency of RAG, leaving its security largely unexplored. We aim to bridge the gap in this work. We find that the knowledge database in a RAG system introduces a new and practical attack surface. Based on this attack surface, we propose PoisonedRAG, the first knowledge corruption attack to RAG, where an attacker could inject a few malicious texts into the knowledge database of a RAG system to induce an LLM to generate an attacker-chosen target answer for an attacker-chosen target question. We formulate knowledge corruption attacks as an optimization problem, whose solution is a set of malicious texts. Depending on the background knowledge (e.g., black-box and white-box settings) of an attacker on a RAG system, we propose two solutions to solve the optimization problem, respectively. Our results show PoisonedRAG could achieve a 90% attack success rate when injecting five malicious texts for each target question into a knowledge database with millions of texts. We also evaluate several defenses and our results show they are insufficient to defend against PoisonedRAG, highlighting the need for new defenses.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その例外的な生成能力により、顕著な成功を収めた。
彼らの成功にもかかわらず、それらはまた、最新の知識と幻覚の欠如のような固有の制限も持っている。
Retrieval-Augmented Generation (RAG)は、これらの制限を緩和するための最先端技術である。
RAGの鍵となる考え方は、知識データベースから取得した外部知識に基づいて、LCMの回答生成を行うことである。
既存の研究は主にRAGの正確さや効率の改善に重点を置いており、その安全性は明らかにされていない。
私たちはこの仕事のギャップを埋めることを目指しています。
RAGシステムにおける知識データベースは,新たな,実用的な攻撃面を導入している。
この攻撃面に基づいて、攻撃者はRAGシステムの知識データベースにいくつかの悪意のあるテキストを注入し、LSMを誘導して攻撃長ターゲット質問に対する攻撃長ターゲット応答を生成することができる、RAGに対する最初の知識汚職攻撃であるPoisonedRAGを提案する。
我々は、知識汚職攻撃を最適化問題として定式化し、その解決策は悪意のあるテキストの集合である。
RAGシステムにおける攻撃者の背景知識(例えば、ブラックボックスとホワイトボックスの設定)に応じて、最適化問題の解法を2つ提案する。
その結果,PoisonedRAGは,対象質問に対して悪意のある5つのテキストを数百万のテキストを含む知識データベースに注入することで,90%の攻撃成功率を達成することができた。
我々はまた、いくつかの防衛も評価し、新たな防衛の必要性を強調しながら、ポイセドラグを防衛するには不十分であることを示した。
関連論文リスト
- Turning Generative Models Degenerate: The Power of Data Poisoning Attacks [10.36389246679405]
悪意のある俳優は、毒殺攻撃を通じてバックドアを導入し、望ましくないアウトプットを発生させることができる。
本研究では,大規模言語モデルの微調整段階を標的とした多種多様な中毒技術について,PEFT(Efficient Fine-Tuning)法を用いて検討する。
本研究は,PEFTによる微調整中にNLGタスクを標的とした毒殺攻撃を理解するための最初の体系的アプローチである。
論文 参考訳(メタデータ) (2024-07-17T03:02:15Z) - BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models [18.107026036897132]
大規模言語モデル(LLM)は時代遅れの情報と誤ったデータを生成する傾向によって制約される。
Retrieval-Augmented Generation (RAG) は、検索手法の強みと生成モデルを組み合わせることで、これらの制限に対処する。
RAG は LLM に対する新たな攻撃面を導入している。特に RAG データベースは Web などの公開データからしばしば引き出されるためである。
論文 参考訳(メタデータ) (2024-06-03T02:25:33Z) - Phantom: General Trigger Attacks on Retrieval Augmented Language Generation [30.63258739968483]
我々は,被害者のRAGシステムに侵入する敵に対して,新たな攻撃面を提案する。
最初のステップは、RAGシステムによって回収されるように設計された有毒な文書を作成することである。
第2のステップでは、毒文書内の特殊に製作された敵文字列が、様々な敵攻撃を誘発する。
論文 参考訳(メタデータ) (2024-05-30T21:19:24Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Learning to Poison Large Language Models During Instruction Tuning [10.450787229190203]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
そこで本研究では,逆方向のトリガを効果的に識別するための,勾配誘導型バックドアトリガ学習手法を提案する。
我々の戦略は、モデル出力の妥協において高い成功率を示す。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking
Attacks [60.7432588386185]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - Forcing Generative Models to Degenerate Ones: The Power of Data
Poisoning Attacks [10.732558183444985]
悪意のあるアクターは、望ましくない出力を生成することを目的とした中毒攻撃を通じて、大きな言語モデル(LLM)の脆弱性を隠蔽的に利用することができる。
本報告では, 様々な生成タスクにおいて, その有効性を評価するために, 様々な中毒技術について検討する。
本研究は, 微調整段階において, 全チューニングデータサンプルの1%程度を用いてLSMに毒を盛ることが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-07T23:26:06Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - On the Security Risks of Knowledge Graph Reasoning [71.64027889145261]
我々は、敵の目標、知識、攻撃ベクトルに応じて、KGRに対するセキュリティ脅威を体系化する。
我々は、このような脅威をインスタンス化する新しいタイプの攻撃であるROARを提示する。
ROARに対する潜在的な対策として,潜在的に有毒な知識のフィルタリングや,対向的な拡張クエリによるトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-05-03T18:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。