Fugu-MT 論文翻訳(概要): Generating Is Believing: Membership Inference Attacks against Retrieval-Augmented Generation

論文の概要: Generating Is Believing: Membership Inference Attacks against Retrieval-Augmented Generation

arxiv url: http://arxiv.org/abs/2406.19234v2
Date: Thu, 26 Sep 2024 04:22:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 00:59:29.491430
Title: Generating Is Believing: Membership Inference Attacks against Retrieval-Augmented Generation
Title（参考訳）: 生成は信じている - メンバーシップ推論による検索強化世代に対する攻撃
Authors: Yuying Li, Gaoyang Liu, Chen Wang, Yang Yang,
Abstract要約: Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚や知識の安定化といった問題を緩和する手法である。既存の研究では、RAGのLCMに関連する潜在的なプライバシーリスクが示されている。 S$2$MIA, underlineMembership underlineInference underlineAttack, which uses the underlineSemantic underlineSimilarity between a given sample and the content generated by the RAG system。
参考スコア（独自算出の注目度）: 9.73190366574692
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-Augmented Generation (RAG) is a state-of-the-art technique that mitigates issues such as hallucinations and knowledge staleness in Large Language Models (LLMs) by retrieving relevant knowledge from an external database to assist in content generation. Existing research has demonstrated potential privacy risks associated with the LLMs of RAG. However, the privacy risks posed by the integration of an external database, which often contains sensitive data such as medical records or personal identities, have remained largely unexplored. In this paper, we aim to bridge this gap by focusing on membership privacy of RAG's external database, with the aim of determining whether a given sample is part of the RAG's database. Our basic idea is that if a sample is in the external database, it will exhibit a high degree of semantic similarity to the text generated by the RAG system. We present S$^2$MIA, a \underline{M}embership \underline{I}nference \underline{A}ttack that utilizes the \underline{S}emantic \underline{S}imilarity between a given sample and the content generated by the RAG system. With our proposed S$^2$MIA, we demonstrate the potential to breach the membership privacy of the RAG database. Extensive experiment results demonstrate that S$^2$MIA can achieve a strong inference performance compared with five existing MIAs, and is able to escape from the protection of three representative defenses.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)における幻覚や知識の安定化といった問題を、コンテンツ生成を支援するために外部データベースから関連知識を取得することによって緩和する最先端技術である。既存の研究では、RAGのLCMに関連する潜在的なプライバシーリスクが示されている。しかし、医療記録や個人の身元などの機密データを含む外部データベースの統合によって引き起こされるプライバシーリスクは、いまだほとんど解明されていない。本稿では,RAGの外部データベースのメンバシッププライバシに着目し,サンプルがRAGのデータベースの一部であるかどうかを判断することを目的として,このギャップを埋めることを目的とする。我々の基本的な考え方は、サンプルが外部データベースにある場合、RAGシステムによって生成されたテキストと高い意味的類似性を示すことである。 S$^2$MIA, a \underline{M}embership \underline{I}nference \underline{A}ttack。提案したS$^2$MIAにより、RAGデータベースの会員プライバシーを侵害する可能性を実証する。実験の結果,S$^2$MIAは既存の5つのMIAと比較して強い推論性能を達成でき,また,3つの代表防御の保護から逃れることができることがわかった。

関連論文リスト

Fine-Grained Privacy Extraction from Retrieval-Augmented Generation Systems via Knowledge Asymmetry Exploitation [15.985529058573912]
Retrieval-augmented Generation (RAG) システムは、外部知識ベースを統合することにより、大規模言語モデル(LLM)を強化する。 RAGシステムに対する既存のプライバシ攻撃は、データ漏洩を引き起こす可能性があるが、多くの場合、混合応答内で知識ベース由来の文を正確に分離することができない。本稿では,RAGと標準LLMの知識非対称性を利用したブラックボックス攻撃フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-31T03:50:16Z)
Safeguarding Privacy of Retrieval Data against Membership Inference Attacks: Is This Query Too Close to Home? [4.488261272565345]
Mirabelは、RAGシステム用に設計された類似性に基づくMIA検出フレームワークである。単純な検出・隠蔽戦略は攻撃者を難読化し、データユーティリティを維持でき、システムに依存しないことを示す。
論文参考訳（メタデータ） (2025-05-28T07:35:07Z)
Beyond Text: Unveiling Privacy Vulnerabilities in Multi-modal Retrieval-Augmented Generation [17.859942323017133]
MRAGのプライバシーの脆弱性を視覚言語と音声言語にまたがって初めて体系的に分析する。実験の結果,LMMは検索した内容に類似した出力を直接生成し,センシティブな情報を間接的に公開する記述を生成することができることがわかった。
論文参考訳（メタデータ） (2025-05-20T05:37:22Z)
Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。 FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文参考訳（メタデータ） (2025-04-27T04:26:02Z)
MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation [8.950307082012763]
大規模言語モデル(LLM)の生成能力向上に有効な手法として,検索拡張生成(RAG)が注目されている。本稿では,RAG評価に特化して設計された質問応答データセットであるMIRAGEについて述べる。 MIRAGEは、37,800エントリの検索プールにマッピングされた7,560のキュレートされたインスタンスで構成され、検索と生成の両方のタスクの効率的かつ正確な評価を可能にする。
論文参考訳（メタデータ） (2025-04-23T23:05:46Z)
mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。 mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文参考訳（メタデータ） (2024-11-22T16:15:50Z)
RAG-Thief: Scalable Extraction of Private Data from Retrieval-Augmented Generation Applications with Agent-based Attacks [18.576435409729655]
本稿では,RAG-Thiefと呼ばれるエージェントベースの自動プライバシ攻撃を提案する。 RAGアプリケーションで使用されるプライベートデータベースから、スケーラブルな量のプライベートデータを抽出することができる。我々の発見は、現在のRAGアプリケーションにおけるプライバシー上の脆弱性を強調し、より強力な保護の必要性を強調します。
論文参考訳（メタデータ） (2024-11-21T13:18:03Z)
Ward: Provable RAG Dataset Inference via LLM Watermarks [6.112273651406279]
Retrieval-Augmented Generation (RAG)は、ジェネレーション中に外部データを組み込むことでLLMを改善する。これにより、RAGシステムにおけるコンテンツの不正使用に対するデータ所有者の懸念が高まる。 LLM透かしに基づくRAG-DI手法であるWardを導入し、RAGシステムにおけるデータセットの使用に関する厳密な統計的保証をデータ所有者が取得できるようにする。
論文参考訳（メタデータ） (2024-10-04T15:54:49Z)
Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文参考訳（メタデータ） (2024-09-16T09:06:44Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
"Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文参考訳（メタデータ） (2024-06-26T05:36:23Z)
Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。 RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文参考訳（メタデータ） (2024-06-20T22:53:09Z)
Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation [0.9217021281095907]
本稿では,RAGシステムに対して,メンバーシップ推論攻撃(MIA)を行うための効率的かつ使いやすい手法を提案する。 2つのベンチマークデータセットと複数の生成モデルを用いて攻撃の有効性を示す。本研究は,RAGシステムにおけるセキュリティ対策の実施の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-05-30T19:46:36Z)
The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文参考訳（メタデータ） (2024-02-23T18:35:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。