Fugu-MT 論文翻訳(概要): Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models

論文の概要: Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models

arxiv url: http://arxiv.org/abs/2410.14479v1
Date: Fri, 18 Oct 2024 14:02:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.488614
Title: Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models
Title（参考訳）: 大規模言語モデルの検索におけるプロンプトインジェクション攻撃のためのバックドアレトリバー
Authors: Cody Clop, Yannick Teglia,
Abstract要約: Retrieval Augmented Generation (RAG)は、大規模言語モデルと最新の情報検索を組み合わせることでこの問題に対処する。本稿では、誤報以外の有害な目的に焦点をあて、RAGに対する即時注射攻撃について検討する。我々は,既存のコーパス中毒技術を構築し,高密度レトリバー部品の微調整を目的とした新しいバックドアアタックを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in generating coherent text but remain limited by the static nature of their training data. Retrieval Augmented Generation (RAG) addresses this issue by combining LLMs with up-to-date information retrieval, but also expand the attack surface of the system. This paper investigates prompt injection attacks on RAG, focusing on malicious objectives beyond misinformation, such as inserting harmful links, promoting unauthorized services, and initiating denial-of-service behaviors. We build upon existing corpus poisoning techniques and propose a novel backdoor attack aimed at the fine-tuning process of the dense retriever component. Our experiments reveal that corpus poisoning can achieve significant attack success rates through the injection of a small number of compromised documents into the retriever corpus. In contrast, backdoor attacks demonstrate even higher success rates but necessitate a more complex setup, as the victim must fine-tune the retriever using the attacker poisoned dataset.
Abstract（参考訳）: 大規模言語モデル(LLM)は、一貫性のあるテキストを生成する際、顕著な能力を示すが、トレーニングデータの静的な性質によって制限される。 Retrieval Augmented Generation (RAG)は、LLMと最新の情報検索を組み合わせることでこの問題に対処すると同時に、システムの攻撃面を拡大する。本稿では,悪質なリンクの挿入,不正なサービスの促進,サービス拒否行動の開始など,誤情報以外の悪意ある目的に焦点をあてて,RAGに対する迅速な注射攻撃について検討する。我々は,既存のコーパス中毒技術を構築し,高密度レトリバー部品の微調整を目的とした新しいバックドアアタックを提案する。本実験により, コーパス中毒は, 少数の漏洩文書を回収コーパスに注入することにより, 攻撃成功率が高いことが判明した。対照的に、バックドア攻撃は、さらに高い成功率を示すが、より複雑な設定を必要とする。

関連論文リスト

Traceback of Poisoning Attacks to Retrieval-Augmented Generation [10.19539347377776]
研究によると、RAGの毒殺攻撃に対する感受性が明らかとなり、攻撃者は知識データベースに有毒なテキストを注入した。既存の防衛は、主に推論時間の緩和に焦点を当てており、高度な攻撃に対して不十分であることが証明されている。本稿では,RAGの最初のトレースバックシステムであるRAGForensicsを紹介し,攻撃に責任を持つ知識データベース内の有毒テキストを識別する。
論文参考訳（メタデータ） (2025-04-30T14:10:02Z)
Practical Poisoning Attacks against Retrieval-Augmented Generation [9.320227105592917]
大規模言語モデル(LLM)は、印象的な自然言語処理能力を示しているが、幻覚や時代遅れの知識といった課題に直面している。 Retrieval-Augmented Generation (RAG)は、これらの問題を緩和するための最先端のアプローチとして登場した。我々は、攻撃者が1つの有毒テキストだけを注入するRAGシステムに対する実用的な中毒攻撃であるCorruptRAGを提案する。
論文参考訳（メタデータ） (2025-04-04T21:49:42Z)
Document Screenshot Retrievers are Vulnerable to Pixel Poisoning Attacks [72.4498910775871]
ヴィジュアル言語モデル(VLM)ベースのレトリバーは、ベクターとして埋め込まれた文書のスクリーンショットを活用して、効率的な検索を可能にし、従来のテキストのみの手法よりも単純化されたパイプラインを提供する。本研究では,VLMをベースとしたレトリバーを危険にさらすために,3つのピクセル中毒攻撃手法を提案する。
論文参考訳（メタデータ） (2025-01-28T12:40:37Z)
Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文参考訳（メタデータ） (2024-10-16T18:44:22Z)
On the Vulnerability of Applying Retrieval-Augmented Generation within Knowledge-Intensive Application Domains [34.122040172188406]
Retrieval-Augmented Generation (RAG)は、知識集約ドメインにおける大規模言語モデル(LLM)の性能向上を実証的に示している。医学的Q&Aにおいて,RAGは普遍的な毒殺攻撃に弱いことが示唆された。我々は、RAGの安全な使用を保証するために、新しい検出ベースの防御を開発する。
論文参考訳（メタデータ） (2024-09-12T02:43:40Z)
Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks [10.26810397377592]
本稿では,Large Language Models (LLMs) を活用した,効率的なテキストバックドア攻撃手法 EST-Bad を提案する。私たちのEST-Badには、モデル固有の欠陥をトリガーとして最適化すること、LSMで密かにトリガーを注入すること、バックドアインジェクションの最も影響の大きいサンプルを慎重に選択することの3つの戦略が含まれています。
論文参考訳（メタデータ） (2024-08-21T12:50:23Z)
Corpus Poisoning via Approximate Greedy Gradient Descent [48.5847914481222]
本稿では,HotFlip法をベースとした高密度検索システムに対する新たな攻撃手法として,近似グレディ・グラディエント・Descentを提案する。提案手法は,複数のデータセットと複数のレトリバーを用いて高い攻撃成功率を達成し,未知のクエリや新しいドメインに一般化可能であることを示す。
論文参考訳（メタデータ） (2024-06-07T17:02:35Z)
BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models [18.107026036897132]
大規模言語モデル(LLM)は時代遅れの情報と誤ったデータを生成する傾向によって制約される。 Retrieval-Augmented Generation (RAG) は、検索手法の強みと生成モデルを組み合わせることで、これらの制限に対処する。 RAG は LLM に対する新たな攻撃面を導入している。特に RAG データベースは Web などの公開データからしばしば引き出されるためである。
論文参考訳（メタデータ） (2024-06-03T02:25:33Z)
SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文参考訳（メタデータ） (2024-05-19T14:50:09Z)
Whispers in Grammars: Injecting Covert Backdoors to Compromise Dense Retrieval Systems [40.131588857153275]
本稿では,攻撃者が検索システムを誤認して攻撃者の特定内容を検索する新たな攻撃シナリオについて検討する。これらのコンテンツは、攻撃者によって検索コーパスに注入され、ヘイトスピーチやスパムのような有害なテキストを含むことができる。モデル重みに頼り、顕著で不自然な出力を生成する従来の手法とは異なり、文法エラーによって引き起こされる隠れたバックドア攻撃を提案する。
論文参考訳（メタデータ） (2024-02-21T05:03:07Z)
SSL-OTA: Unveiling Backdoor Threats in Self-Supervised Learning for Object Detection [8.178238811631093]
我々は、SSL-OTA(Object Transform Attack)と呼ばれるSSLシナリオにおけるオブジェクト検出タスク用に設計された最初のバックドアアタックを提案する。 SSL-OTAは、ターゲットオブジェクトの予測を所望のカテゴリに変更できるトリガーを使用する。我々は、ベンチマークデータセットに関する広範な実験を行い、提案した攻撃の有効性と潜在的な防御に対する抵抗性を実証した。
論文参考訳（メタデータ） (2023-12-30T04:21:12Z)
Poisoning Retrieval Corpora by Injecting Adversarial Passages [79.14287273842878]
本稿では,悪意のあるユーザが少数の逆行を発生させるような,高密度検索システムに対する新たな攻撃を提案する。これらの逆行路を大規模な検索コーパスに挿入すると、この攻撃はこれらのシステムを騙すのに非常に効果的であることを示す。また、教師なしと教師なしの両方の最先端の高密度レトリバーをベンチマークし、比較する。
論文参考訳（メタデータ） (2023-10-29T21:13:31Z)
Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文参考訳（メタデータ） (2022-11-02T17:05:45Z)
Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。 ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文参考訳（メタデータ） (2020-06-05T03:03:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。