論文の概要: Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.14479v1
- Date: Fri, 18 Oct 2024 14:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:51.694541
- Title: Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models
- Title(参考訳): 大規模言語モデルの検索におけるプロンプトインジェクション攻撃のためのバックドアレトリバー
- Authors: Cody Clop, Yannick Teglia,
- Abstract要約: Retrieval Augmented Generation (RAG)は、大規模言語モデルと最新の情報検索を組み合わせることでこの問題に対処する。
本稿では、誤報以外の有害な目的に焦点をあて、RAGに対する即時注射攻撃について検討する。
我々は,既存のコーパス中毒技術を構築し,高密度レトリバー部品の微調整を目的とした新しいバックドアアタックを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in generating coherent text but remain limited by the static nature of their training data. Retrieval Augmented Generation (RAG) addresses this issue by combining LLMs with up-to-date information retrieval, but also expand the attack surface of the system. This paper investigates prompt injection attacks on RAG, focusing on malicious objectives beyond misinformation, such as inserting harmful links, promoting unauthorized services, and initiating denial-of-service behaviors. We build upon existing corpus poisoning techniques and propose a novel backdoor attack aimed at the fine-tuning process of the dense retriever component. Our experiments reveal that corpus poisoning can achieve significant attack success rates through the injection of a small number of compromised documents into the retriever corpus. In contrast, backdoor attacks demonstrate even higher success rates but necessitate a more complex setup, as the victim must fine-tune the retriever using the attacker poisoned dataset.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一貫性のあるテキストを生成する際、顕著な能力を示すが、トレーニングデータの静的な性質によって制限される。
Retrieval Augmented Generation (RAG)は、LLMと最新の情報検索を組み合わせることでこの問題に対処すると同時に、システムの攻撃面を拡大する。
本稿では,悪質なリンクの挿入,不正なサービスの促進,サービス拒否行動の開始など,誤情報以外の悪意ある目的に焦点をあてて,RAGに対する迅速な注射攻撃について検討する。
我々は,既存のコーパス中毒技術を構築し,高密度レトリバー部品の微調整を目的とした新しいバックドアアタックを提案する。
本実験により, コーパス中毒は, 少数の漏洩文書を回収コーパスに注入することにより, 攻撃成功率が高いことが判明した。
対照的に、バックドア攻撃は、さらに高い成功率を示すが、より複雑な設定を必要とする。
関連論文リスト
- Document Screenshot Retrievers are Vulnerable to Pixel Poisoning Attacks [72.4498910775871]
ヴィジュアル言語モデル(VLM)ベースのレトリバーは、ベクターとして埋め込まれた文書のスクリーンショットを活用して、効率的な検索を可能にし、従来のテキストのみの手法よりも単純化されたパイプラインを提供する。
本研究では,VLMをベースとしたレトリバーを危険にさらすために,3つのピクセル中毒攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T12:40:37Z) - Retrievals Can Be Detrimental: A Contrastive Backdoor Attack Paradigm on Retrieval-Augmented Diffusion Models [38.57797114175442]
拡散モデル (DM) は近年, 顕著な生成能力を示した。
近年の研究では、高度な検索・拡張生成(RAG)技術によってDMが強化されている。
RAGは、モデルパラメータを著しく低減しつつ、DMの生成と一般化能力を向上させる。
大きな成功にもかかわらず、RAGはさらなる調査を保証できる新しいセキュリティ問題を導入するかもしれない。
論文 参考訳(メタデータ) (2025-01-23T02:42:28Z) - Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。
動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。
本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文 参考訳(メタデータ) (2024-10-16T18:44:22Z) - On the Vulnerability of Applying Retrieval-Augmented Generation within
Knowledge-Intensive Application Domains [34.122040172188406]
Retrieval-Augmented Generation (RAG)は、知識集約ドメインにおける大規模言語モデル(LLM)の性能向上を実証的に示している。
医学的Q&Aにおいて,RAGは普遍的な毒殺攻撃に弱いことが示唆された。
我々は、RAGの安全な使用を保証するために、新しい検出ベースの防御を開発する。
論文 参考訳(メタデータ) (2024-09-12T02:43:40Z) - Corpus Poisoning via Approximate Greedy Gradient Descent [48.5847914481222]
本稿では,HotFlip法をベースとした高密度検索システムに対する新たな攻撃手法として,近似グレディ・グラディエント・Descentを提案する。
提案手法は,複数のデータセットと複数のレトリバーを用いて高い攻撃成功率を達成し,未知のクエリや新しいドメインに一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T17:02:35Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Whispers in Grammars: Injecting Covert Backdoors to Compromise Dense Retrieval Systems [40.131588857153275]
本稿では,攻撃者が検索システムを誤認して攻撃者の特定内容を検索する新たな攻撃シナリオについて検討する。
これらのコンテンツは、攻撃者によって検索コーパスに注入され、ヘイトスピーチやスパムのような有害なテキストを含むことができる。
モデル重みに頼り、顕著で不自然な出力を生成する従来の手法とは異なり、文法エラーによって引き起こされる隠れたバックドア攻撃を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:03:07Z) - SSL-OTA: Unveiling Backdoor Threats in Self-Supervised Learning for Object Detection [8.178238811631093]
我々は、SSL-OTA(Object Transform Attack)と呼ばれるSSLシナリオにおけるオブジェクト検出タスク用に設計された最初のバックドアアタックを提案する。
SSL-OTAは、ターゲットオブジェクトの予測を所望のカテゴリに変更できるトリガーを使用する。
我々は、ベンチマークデータセットに関する広範な実験を行い、提案した攻撃の有効性と潜在的な防御に対する抵抗性を実証した。
論文 参考訳(メタデータ) (2023-12-30T04:21:12Z) - Poisoning Retrieval Corpora by Injecting Adversarial Passages [79.14287273842878]
本稿では,悪意のあるユーザが少数の逆行を発生させるような,高密度検索システムに対する新たな攻撃を提案する。
これらの逆行路を大規模な検索コーパスに挿入すると、この攻撃はこれらのシステムを騙すのに非常に効果的であることを示す。
また、教師なしと教師なしの両方の最先端の高密度レトリバーをベンチマークし、比較する。
論文 参考訳(メタデータ) (2023-10-29T21:13:31Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。