論文の概要: Phantom: General Trigger Attacks on Retrieval Augmented Language Generation
- arxiv url: http://arxiv.org/abs/2405.20485v2
- Date: Tue, 15 Oct 2024 15:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:47.948540
- Title: Phantom: General Trigger Attacks on Retrieval Augmented Language Generation
- Title(参考訳): Phantom: 検索言語生成に対する一般的なトリガー攻撃
- Authors: Harsh Chaudhari, Giorgio Severi, John Abascal, Matthew Jagielski, Christopher A. Choquette-Choo, Milad Nasr, Cristina Nita-Rotaru, Alina Oprea,
- Abstract要約: Retrieval Augmented Generation (RAG)は、現代の大規模言語モデル(LLM)の機能を拡張する
本稿では,RAGシステムの知識ベースに悪意ある文書を1つだけ注入し,バックドア中毒攻撃を行う新たな攻撃ベクトルを提案する。
我々はGemma、Vicuna、Llamaを含む複数のLLMアーキテクチャに対する攻撃を実演し、GPT-3.5 TurboおよびGPT-4への移行を示す。
- 参考スコア(独自算出の注目度): 30.63258739968483
- License:
- Abstract: Retrieval Augmented Generation (RAG) expands the capabilities of modern large language models (LLMs), by anchoring, adapting, and personalizing their responses to the most relevant knowledge sources. It is particularly useful in chatbot applications, allowing developers to customize LLM output without expensive retraining. Despite their significant utility in various applications, RAG systems present new security risks. In this work, we propose new attack vectors that allow an adversary to inject a single malicious document into a RAG system's knowledge base, and mount a backdoor poisoning attack. We design Phantom, a general two-stage optimization framework against RAG systems, that crafts a malicious poisoned document leading to an integrity violation in the model's output. First, the document is constructed to be retrieved only when a specific trigger sequence of tokens appears in the victim's queries. Second, the document is further optimized with crafted adversarial text that induces various adversarial objectives on the LLM output, including refusal to answer, reputation damage, privacy violations, and harmful behaviors. We demonstrate our attacks on multiple LLM architectures, including Gemma, Vicuna, and Llama, and show that they transfer to GPT-3.5 Turbo and GPT-4. Finally, we successfully conducted a Phantom attack on NVIDIA's black-box production RAG system, "Chat with RTX".
- Abstract(参考訳): Retrieval Augmented Generation (RAG)は、最新の大規模言語モデル(LLM)の機能を拡張し、最も関連する知識ソースへの応答をアンカーし、適応し、パーソナライズする。
チャットボットアプリケーションでは特に有用で、開発者は高価な再トレーニングなしにLCM出力をカスタマイズできる。
様々なアプリケーションで大きなメリットがあるにもかかわらず、RAGシステムは新たなセキュリティリスクを提示している。
本研究では,RAGシステムの知識ベースに悪意ある文書を1つだけ注入し,バックドア中毒攻撃を行う新たな攻撃ベクトルを提案する。
我々は、RAGシステムに対する一般的な2段階最適化フレームワークであるPhantomを設計し、悪意のある有毒なドキュメントを作成し、モデル出力の整合性に違反する。
まず、被害者のクエリに特定のトークンのトリガーシーケンスが現れる場合にのみ、ドキュメントを検索するように構築する。
第2に、この文書は、LLM出力に対する様々な敵の目的を誘導する、創作された敵のテキストにより、さらに最適化されている。
我々はGemma、Vicuna、Llamaを含む複数のLLMアーキテクチャに対する攻撃を実演し、GPT-3.5 TurboおよびGPT-4への移行を示す。
最後に,NVIDIAのブラックボックス生産RAGシステムである"Chat with RTX"に対するPhantom攻撃を成功させた。
関連論文リスト
- Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
我々は、状況駆動型文脈書き換えにより、無意味な接尾辞攻撃を意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - R^2AG: Incorporating Retrieval Information into Retrieval Augmented Generation [11.890598082534577]
Retrieval augmented generation (RAG) は、検索者によって提供される外部文書で大規模言語モデル(LLM)を拡張するために、多くのシナリオで適用されてきた。
本稿では,R$2$AGを提案する。R$2$AGは,検索情報を検索用拡張生成に組み込む新しい拡張RAGフレームワークである。
論文 参考訳(メタデータ) (2024-06-19T06:19:48Z) - Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents [17.95339197094059]
Retrieval-augmented Generation (RAG)システムは、関連する文書を知識データベースから検索し、検索した文書にLSMを適用して回答を生成する。
我々は、潜在的に信頼できないコンテンツを持つデータベースで運用するRAGシステムが、私たちがジャミングと呼ぶ新しいタイプのサービス拒否攻撃に弱いことを実証した。
論文 参考訳(メタデータ) (2024-06-09T17:55:55Z) - BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models [18.107026036897132]
大規模言語モデル(LLM)は時代遅れの情報と誤ったデータを生成する傾向によって制約される。
Retrieval-Augmented Generation (RAG) は、検索手法の強みと生成モデルを組み合わせることで、これらの制限に対処する。
RAG は LLM に対する新たな攻撃面を導入している。特に RAG データベースは Web などの公開データからしばしば引き出されるためである。
論文 参考訳(メタデータ) (2024-06-03T02:25:33Z) - TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models [16.71019302192829]
大規模言語モデル(LLM)は、自然言語処理(NLP)において顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。
バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。
本稿では,Retrieval-Augmented Generationにおいて,共同でバックドア攻撃を行うTrojanRAGを提案する。
論文 参考訳(メタデータ) (2024-05-22T07:21:32Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Instruction Backdoor Attacks Against Customized LLMs [37.92008159382539]
我々は、信頼できないカスタマイズ LLM と統合されたアプリケーションに対して、最初の命令バックドアアタックを提案する。
私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。
本稿では,2つの防衛戦略を提案し,その効果を実証する。
論文 参考訳(メタデータ) (2024-02-14T13:47:35Z) - PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented
Generation of Large Language Models [49.606341607616926]
我々は、RAGに対する知識中毒攻撃のセットであるPoisonedRAGを提案する。
我々は、知識中毒攻撃を最適化問題として定式化し、その解決策は有毒テキストの集合である。
以上の結果から,対象の質問に対して5つの有毒テキストを100万テキストのデータベースに注入した場合,攻撃が90%の攻撃成功率を達成する可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:28:36Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。