論文の概要: Seeing Is Believing: Black-Box Membership Inference Attacks Against Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2406.19234v1
- Date: Thu, 27 Jun 2024 14:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:48:33.186628
- Title: Seeing Is Believing: Black-Box Membership Inference Attacks Against Retrieval Augmented Generation
- Title(参考訳): ブラックボックスの会員数推論攻撃で、検索世代が増加
- Authors: Yuying Li, Gaoyang Liu, Yang Yang, Chen Wang,
- Abstract要約: 我々は、サンプルがRAGシステムの知識データベースの一部であるかどうかを判断するために、メンバーシップ推論攻撃(MIA)を用いる。
次に、Thresholdベースのアタックと機械学習ベースのアタックという、2つの新しいアタック戦略を紹介します。
提案手法を実験的に検証した結果,ROC AUCは82%であった。
- 参考スコア(独自算出の注目度): 9.731903665746918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) is a state-of-the-art technique that enhances Large Language Models (LLMs) by retrieving relevant knowledge from an external, non-parametric database. This approach aims to mitigate common LLM issues such as hallucinations and outdated knowledge. Although existing research has demonstrated security and privacy vulnerabilities within RAG systems, making them susceptible to attacks like jailbreaks and prompt injections, the security of the RAG system's external databases remains largely underexplored. In this paper, we employ Membership Inference Attacks (MIA) to determine whether a sample is part of the knowledge database of a RAG system, using only black-box API access. Our core hypothesis posits that if a sample is a member, it will exhibit significant similarity to the text generated by the RAG system. To test this, we compute the cosine similarity and the model's perplexity to establish a membership score, thereby building robust features. We then introduce two novel attack strategies: a Threshold-based Attack and a Machine Learning-based Attack, designed to accurately identify membership. Experimental validation of our methods has achieved a ROC AUC of 82%.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、外部の非パラメトリックデータベースから関連する知識を取得することによって、大規模言語モデル(LLM)を強化する最先端技術である。
このアプローチは、幻覚や時代遅れの知識など、一般的なLCMの問題を軽減することを目的としている。
既存の研究では、RAGシステム内のセキュリティとプライバシの脆弱性が証明されているため、Jailbreakやインジェクションのプロンプトのような攻撃を受けやすいが、RAGシステムの外部データベースのセキュリティはいまだに過小評価されている。
本稿では,会員推論攻撃(MIA)を用いて,サンプルがRAGシステムの知識データベースの一部であるか否かをブラックボックスAPIアクセスのみを用いて判定する。
我々の中核仮説は、サンプルがメンバーであれば、RAGシステムによって生成されたテキストとかなり類似していることを示します。
これをテストするために、コサイン類似度とモデルの難易度を計算し、メンバーシップスコアを確立することにより、ロバストな特徴を構築する。
次に、Thresholdベースのアタックと機械学習ベースのアタックという、メンバシップを正確に識別する2つの新しいアタック戦略を紹介します。
提案手法を実験的に検証した結果,ROC AUCは82%であった。
関連論文リスト
- Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models [21.01313168005792]
我々は、意見操作のためのブラックボックス攻撃に直面した場合、検索強化生成(RAG)モデルの脆弱性を明らかにする。
このような攻撃がユーザの認知と意思決定に与える影響について検討する。
論文 参考訳(メタデータ) (2024-07-18T17:55:55Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation [0.9217021281095907]
本稿では,RAGシステムに対して,メンバーシップ推論攻撃(MIA)を行うための効率的かつ使いやすい手法を提案する。
2つのベンチマークデータセットと複数の生成モデルを用いて攻撃の有効性を示す。
本研究は,RAGシステムにおけるセキュリティ対策の実施の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-30T19:46:36Z) - BruSLeAttack: A Query-Efficient Score-Based Black-Box Sparse Adversarial Attack [22.408968332454062]
モデルクエリに対するスコアベースの応答を単純に観察することで、スパース対逆サンプルを生成するという、独特であまりよく理解されていない問題について検討する。
この問題に対するBruSLeAttackアルゴリズムを開発した。
私たちの作業は、モデル脆弱性の迅速な評価を促進し、デプロイされたシステムの安全性、セキュリティ、信頼性に対する警戒を高めます。
論文 参考訳(メタデータ) (2024-04-08T08:59:26Z) - PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented
Generation of Large Language Models [49.606341607616926]
我々は、RAGに対する知識中毒攻撃のセットであるPoisonedRAGを提案する。
我々は、知識中毒攻撃を最適化問題として定式化し、その解決策は有毒テキストの集合である。
以上の結果から,対象の質問に対して5つの有毒テキストを100万テキストのデータベースに注入した場合,攻撃が90%の攻撃成功率を達成する可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:28:36Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文 参考訳(メタデータ) (2023-09-20T07:42:51Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - ADC: Adversarial attacks against object Detection that evade Context
consistency checks [55.8459119462263]
文脈整合性チェックさえも、適切に構築された敵の例に対して脆弱であることを示す。
このような防御を覆す実例を生成するための適応型フレームワークを提案する。
我々の結果は、コンテキストを堅牢にモデル化し、一貫性をチェックする方法はまだ未解決の問題であることを示している。
論文 参考訳(メタデータ) (2021-10-24T00:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。