Fugu-MT 論文翻訳(概要): RAG-Thief: Scalable Extraction of Private Data from Retrieval-Augmented Generation Applications with Agent-based Attacks

論文の概要: RAG-Thief: Scalable Extraction of Private Data from Retrieval-Augmented Generation Applications with Agent-based Attacks

arxiv url: http://arxiv.org/abs/2411.14110v1
Date: Thu, 21 Nov 2024 13:18:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.818962
Title: RAG-Thief: Scalable Extraction of Private Data from Retrieval-Augmented Generation Applications with Agent-based Attacks
Title（参考訳）: RAG-Thief: エージェントベース攻撃を用いた検索拡張型アプリケーションからの個人データのスケーラブル抽出
Authors: Changyue Jiang, Xudong Pan, Geng Hong, Chenfu Bao, Min Yang,
Abstract要約: 本稿では,RAG-Thiefと呼ばれるエージェントベースの自動プライバシ攻撃を提案する。 RAGアプリケーションで使用されるプライベートデータベースから、スケーラブルな量のプライベートデータを抽出することができる。我々の発見は、現在のRAGアプリケーションにおけるプライバシー上の脆弱性を強調し、より強力な保護の必要性を強調します。
参考スコア（独自算出の注目度）: 18.576435409729655
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: While large language models (LLMs) have achieved notable success in generative tasks, they still face limitations, such as lacking up-to-date knowledge and producing hallucinations. Retrieval-Augmented Generation (RAG) enhances LLM performance by integrating external knowledge bases, providing additional context which significantly improves accuracy and knowledge coverage. However, building these external knowledge bases often requires substantial resources and may involve sensitive information. In this paper, we propose an agent-based automated privacy attack called RAG-Thief, which can extract a scalable amount of private data from the private database used in RAG applications. We conduct a systematic study on the privacy risks associated with RAG applications, revealing that the vulnerability of LLMs makes the private knowledge bases suffer significant privacy risks. Unlike previous manual attacks which rely on traditional prompt injection techniques, RAG-Thief starts with an initial adversarial query and learns from model responses, progressively generating new queries to extract as many chunks from the knowledge base as possible. Experimental results show that our RAG-Thief can extract over 70% information from the private knowledge bases within customized RAG applications deployed on local machines and real-world platforms, including OpenAI's GPTs and ByteDance's Coze. Our findings highlight the privacy vulnerabilities in current RAG applications and underscore the pressing need for stronger safeguards.
Abstract（参考訳）: 大きな言語モデル(LLM)は、生成タスクにおいて顕著な成功を収めてきたが、最新の知識の欠如や幻覚などの制限に直面している。 Retrieval-Augmented Generation (RAG)は、外部知識ベースを統合することでLLMの性能を高め、精度と知識カバレッジを大幅に向上させる追加のコンテキストを提供する。しかしながら、これらの外部知識ベースを構築するには、しばしばかなりのリソースを必要とし、機密情報を含む可能性がある。本稿では、RAGアプリケーションで使用されるプライベートデータベースから、スケーラブルな量のプライベートデータを抽出できるRAG-Thiefと呼ばれるエージェントベースの自動プライバシ攻撃を提案する。我々は、RAGアプリケーションに関連するプライバシーリスクを体系的に研究し、LLMの脆弱性が民間の知識基盤を重大なプライバシーリスクに陥らせることを明らかにした。従来のプロンプトインジェクション技術に依存する従来の手動攻撃とは異なり、RAG-Thiefは最初の逆クエリから始まり、モデル応答から学習し、できるだけ多くのチャンクを知識ベースから抽出するために、新しいクエリを段階的に生成する。実験の結果,我々のRAG-Thiefは,OpenAIのGPTやByteDanceのCozeなど,ローカルマシンや実世界のプラットフォームにデプロイされたRAGアプリケーション内のプライベート知識ベースから70%以上の情報を抽出できることがわかった。我々の発見は、現在のRAGアプリケーションにおけるプライバシー上の脆弱性を強調し、より強力な保護の必要性を強調します。

関連論文リスト

Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation [50.87199039334856]
Retrieval-Augmented Generation (RAG) は知識集約型アプリケーションの基礎となっている。近年の研究では、悪意あるクエリによって知識抽出攻撃が機密知識ベースコンテンツを回復できることが示されている。本稿では,RAGシステムに対する知識抽出攻撃のための最初の体系的ベンチマークを紹介する。
論文参考訳（メタデータ） (2026-02-10T01:27:46Z)
Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval [49.85856484781787]
本稿では,ILMエージェントを検索プロセスのアクティブマニピュレータに高める新しいパラダイムであるInteract-RAGを紹介する。我々は、ゼロショット実行と相互作用軌跡の合成を可能にする推論強化ワークフローを開発する。 6つのベンチマーク実験により、Interact-RAGは他の高度な手法よりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2025-10-31T15:48:43Z)
External Data Extraction Attacks against Retrieval-Augmented Large Language Models [70.47869786522782]
RAGは、大規模言語モデル(LLM)を拡張するための重要なパラダイムとして登場した。 RAGは外部データ抽出攻撃(EDEA)の新たなリスクを導入している。本研究は, EDEA を検索拡張 LLM に対して形式化する最初の総合的研究である。
論文参考訳（メタデータ） (2025-10-03T12:53:45Z)
SMA: Who Said That? Auditing Membership Leakage in Semi-Black-box RAG Controlling [50.66950115630554]
Retrieval-Augmented Generation(RAG)とそのMultimodal Retrieval-Augmented Generation(MRAG)は、大規模言語モデル(LLM)の知識カバレッジと文脈理解を著しく向上させる。しかし、検索とマルチモーダル融合によるコンテンツの曖昧さは、既存のメンバーシップ推論手法を事前学習、外部検索、ユーザ入力に確実に属性付けできないようにし、プライバシー漏洩の説明責任を損なう。本稿では,検索制御機能を備えた半ブラックボックス設定において,生成したコンテンツの微粒なソース属性を実現するための,SMA (Source-aware Membership Audit) を提案する。
論文参考訳（メタデータ） (2025-08-12T17:32:24Z)
Token-Level Precise Attack on RAG: Searching for the Best Alternatives to Mislead Generation [7.441679541836913]
Token-level Precise Attack on the RAG (TPARAG) は、ホワイトボックスとブラックボックスの両方のRAGシステムをターゲットにした新しいフレームワークである。 TPARAGは、検索ステージとエンド・ツー・エンド・アタックの有効性において、従来のアプローチを一貫して上回っている。
論文参考訳（メタデータ） (2025-08-05T05:44:19Z)
Fine-Grained Privacy Extraction from Retrieval-Augmented Generation Systems via Knowledge Asymmetry Exploitation [15.985529058573912]
Retrieval-augmented Generation (RAG) システムは、外部知識ベースを統合することにより、大規模言語モデル(LLM)を強化する。 RAGシステムに対する既存のプライバシ攻撃は、データ漏洩を引き起こす可能性があるが、多くの場合、混合応答内で知識ベース由来の文を正確に分離することができない。本稿では,RAGと標準LLMの知識非対称性を利用したブラックボックス攻撃フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-31T03:50:16Z)
Silent Leaks: Implicit Knowledge Extraction Attack on RAG Systems through Benign Queries [42.768116999732776]
インプシット知識抽出攻撃(IKEA)は、良質なクエリを通してRAGシステム上で知識抽出を行う。 IKEAは、抽出効率の80%以上、攻撃成功率の90%を超えている。
論文参考訳（メタデータ） (2025-05-21T12:04:42Z)
Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。 FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文参考訳（メタデータ） (2025-04-27T04:26:02Z)
MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [109.53357276796655]
Retrieval Augmented Generation (RAG) を備えたマルチモーダル大言語モデル(MLLM) RAGはクエリ関連外部知識の応答を基盤としてMLLMを強化する。この依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを生じさせる。本稿では,2つの攻撃戦略を持つ新しい知識中毒攻撃フレームワークMM-PoisonRAGを提案する。
論文参考訳（メタデータ） (2025-02-25T04:23:59Z)
Pirates of the RAG: Adaptively Attacking LLMs to Leak Knowledge Bases [11.101624331624933]
本稿では,RAGシステムにプライベート知識ベースを漏洩させるブラックボックス攻撃を提案する。関連性に基づくメカニズムとアタッカーサイドのオープンソース LLM は、(隠された)知識ベースの大部分をリークする効果的なクエリの生成を好んでいる。
論文参考訳（メタデータ） (2024-12-24T09:03:57Z)
LeakAgent: RL-based Red-teaming Agent for LLM Privacy Leakage [78.33839735526769]
LeakAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。我々のフレームワークは、敵のプロンプトを生成するための攻撃エージェントとして強化学習を通じてオープンソースのLLMを訓練する。我々は,LeakAgentが既存のルールベースのデータ抽出手法と,システムリーク時の自動手法を著しく上回っていることを示す。
論文参考訳（メタデータ） (2024-12-07T20:09:01Z)
Privacy-Preserving Retrieval-Augmented Generation with Differential Privacy [25.896416088293908]
検索強化世代(RAG)は大規模言語モデル(LLM)を支援するのに特に有効である RAGは、外部データソースから機密情報を漏洩するリスクを出力する。機密情報を必要とするトークンに対してのみ、プライバシー予算を賢く費やすアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-06T01:20:16Z)
Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors [15.861833242429228]
本稿では,RAG(Retrieval-Augmented Generation)システムの知識データベースを対象としたデータ抽出攻撃について検討する。この脆弱性を明らかにするために, LLM内にバックドアを作成するために, 微調整期間中に少量の有毒データを注入するバックドアRAGを提案する。
論文参考訳（メタデータ） (2024-11-03T22:27:40Z)
Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文参考訳（メタデータ） (2024-09-16T09:06:44Z)
ConfusedPilot: Confused Deputy Risks in RAG-based LLMs [2.423202571519879]
我々は、Copilotを混乱させ、応答に完全性と機密性を侵害するRAGシステムのセキュリティ脆弱性のクラスであるConfusedPilotを紹介します。本研究は,現在のRAGベースのシステムにおけるセキュリティ脆弱性を強調し,今後のRAGベースのシステムを保護するための設計ガイドラインを提案する。
論文参考訳（メタデータ） (2024-08-09T05:20:05Z)
"Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文参考訳（メタデータ） (2024-06-26T05:36:23Z)
Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。 RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文参考訳（メタデータ） (2024-06-20T22:53:09Z)
Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation [0.9217021281095907]
本稿では,RAGシステムに対して,メンバーシップ推論攻撃(MIA)を行うための効率的かつ使いやすい手法を提案する。 2つのベンチマークデータセットと複数の生成モデルを用いて攻撃の有効性を示す。本研究は,RAGシステムにおけるセキュリティ対策の実施の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-05-30T19:46:36Z)
REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question Answering [115.72130322143275]
REAR(Relevance-Aware Retrieval-augmented approach for open-domain Question answering, QA) 我々は,特殊な設計のアセスメントモジュールを組み込むことで,LLMベースのRAGシステムのための新しいアーキテクチャを開発する。オープンドメインの4つのQAタスクの実験では、REARは以前の競争力のあるRAGアプローチよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-02-27T13:22:51Z)
The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文参考訳（メタデータ） (2024-02-23T18:35:15Z)
ActiveRAG: Autonomously Knowledge Assimilation and Accommodation through Retrieval-Augmented Agents [49.30553350788524]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)が外部知識を活用することを可能にする。既存のRAGモデルは、LLMを受動的情報受信者として扱うことが多い。人間の学習行動を模倣するマルチエージェントフレームワークであるActiveRAGを紹介する。
論文参考訳（メタデータ） (2024-02-21T06:04:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。