論文の概要: Mask-based Membership Inference Attacks for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2410.20142v1
- Date: Sat, 26 Oct 2024 10:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:56.709791
- Title: Mask-based Membership Inference Attacks for Retrieval-Augmented Generation
- Title(参考訳): 検索型生成のためのマスクによるメンバーシップ推論攻撃
- Authors: Mingrui Liu, Sixiao Zhang, Cheng Long,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を緩和するための効果的なアプローチである。
近年,LLMトレーニングに使用せず,RAGナレッジデータベースに最新のデータや著作権データを格納する傾向にある。
このプラクティスは、特定のターゲットドキュメントがRAGシステムのナレッジデータベースに格納されているかどうかを検出することを目的とした、メンバーシップ推論攻撃(MIAs)に対する懸念を提起している。
- 参考スコア(独自算出の注目度): 25.516648802281626
- License:
- Abstract: Retrieval-Augmented Generation (RAG) has been an effective approach to mitigate hallucinations in large language models (LLMs) by incorporating up-to-date and domain-specific knowledge. Recently, there has been a trend of storing up-to-date or copyrighted data in RAG knowledge databases instead of using it for LLM training. This practice has raised concerns about Membership Inference Attacks (MIAs), which aim to detect if a specific target document is stored in the RAG system's knowledge database so as to protect the rights of data producers. While research has focused on enhancing the trustworthiness of RAG systems, existing MIAs for RAG systems remain largely insufficient. Previous work either relies solely on the RAG system's judgment or is easily influenced by other documents or the LLM's internal knowledge, which is unreliable and lacks explainability. To address these limitations, we propose a Mask-Based Membership Inference Attacks (MBA) framework. Our framework first employs a masking algorithm that effectively masks a certain number of words in the target document. The masked text is then used to prompt the RAG system, and the RAG system is required to predict the mask values. If the target document appears in the knowledge database, the masked text will retrieve the complete target document as context, allowing for accurate mask prediction. Finally, we adopt a simple yet effective threshold-based method to infer the membership of target document by analyzing the accuracy of mask prediction. Our mask-based approach is more document-specific, making the RAG system's generation less susceptible to distractions from other documents or the LLM's internal knowledge. Extensive experiments demonstrate the effectiveness of our approach compared to existing baseline models.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)における幻覚の軽減に有効なアプローチであり、最新の知識とドメイン固有の知識を取り入れている。
近年,LLM トレーニングに使用せず,RAG 知識データベースに最新データや著作権データを格納する傾向にある。
これは、特定のターゲット文書がRAGシステムのナレッジデータベースに保存されているかどうかを検知し、データプロデューサの権利を保護することを目的としている。
研究はRAGシステムの信頼性向上に重点を置いているが、RAGシステムの既存のMIAは依然としてほとんど不十分である。
これまでの作業はRAGシステムの判断にのみ依存するか、他の文書やLCMの内部知識の影響を受けやすい。
これらの制約に対処するために,マスクベースのメンバーシップ推論攻撃(MBA)フレームワークを提案する。
まず,対象文書中の特定の単語を効果的にマスキングするマスキングアルゴリズムを用いる。
次に、マスク付きテキストを使用してRAGシステムを起動し、RAGシステムはマスクの値を予測する必要がある。
知識データベースにターゲット文書が現れると、マスク付きテキストは完全なターゲット文書をコンテキストとして検索し、正確なマスク予測を可能にする。
最後に、マスク予測の精度を解析することにより、ターゲット文書のメンバシップを推測する簡易かつ効果的なしきい値ベース手法を採用する。
我々のマスクベースのアプローチはより文書に特化しており、RAGシステムの世代は他の文書やLSMの内部知識からの逸脱の影響を受けにくくしている。
大規模な実験により,既存のベースラインモデルと比較して,提案手法の有効性が示された。
関連論文リスト
- ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems [2.8692611791027893]
Retrieval-Augmented Generation (RAG) システムは、無関係またはゆるい関連情報の検索によって不正確な応答を生成する。
チャンクレベルで取得した情報を評価・フィルタリングすることでRAGシステムを強化するフレームワークであるChunkRAGを提案する。
論文 参考訳(メタデータ) (2024-10-25T14:07:53Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - On the Vulnerability of Applying Retrieval-Augmented Generation within
Knowledge-Intensive Application Domains [34.122040172188406]
Retrieval-Augmented Generation (RAG)は、知識集約ドメインにおける大規模言語モデル(LLM)の性能向上を実証的に示している。
医学的Q&Aにおいて,RAGは普遍的な毒殺攻撃に弱いことが示唆された。
我々は、RAGの安全な使用を保証するために、新しい検出ベースの防御を開発する。
論文 参考訳(メタデータ) (2024-09-12T02:43:40Z) - Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks [12.061098193438022]
Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。
本稿では,RAGシステムのエンドツーエンドの間接的なプロンプト操作に対する安全性について検討する。
論文 参考訳(メタデータ) (2024-08-09T12:26:05Z) - Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents [17.95339197094059]
Retrieval-augmented Generation (RAG)システムは、関連する文書を知識データベースから検索し、検索した文書にLSMを適用して回答を生成する。
我々は、信頼できないコンテンツを持つデータベースで運用するRAGシステムが、私たちがジャミングと呼ぶ新しいタイプのサービス拒否攻撃に弱いことを実証した。
論文 参考訳(メタデータ) (2024-06-09T17:55:55Z) - A Theory for Token-Level Harmonization in Retrieval-Augmented Generation [76.75124161306795]
Retrieval-augmented Generation (RAG)は、検索したテキストを利用して大規模言語モデル(LLM)を強化する。
本稿では,RAGの利益と有害性を説明するための理論を提供する。
提案手法は,本理論に基づいて,純粋LLMとRAGの協調生成を実現する実用的手法であるTok-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-03T02:56:14Z) - Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation [0.9217021281095907]
本稿では,RAGシステムに対して,メンバーシップ推論攻撃(MIA)を行うための効率的かつ使いやすい手法を提案する。
2つのベンチマークデータセットと複数の生成モデルを用いて攻撃の有効性を示す。
本研究は,RAGシステムにおけるセキュリティ対策の実施の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-30T19:46:36Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain
Question Answering [122.62012375722124]
既存の手法では,大規模言語モデル (LLM) は検索した文書の関連性を正確に評価することはできない。
Relevance-Aware Retrieval-augmented approach for open- domain question answering (QA)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。