論文の概要: Feedback-Guided Extraction of Knowledge Base from Retrieval-Augmented LLM Applications
- arxiv url: http://arxiv.org/abs/2411.14110v2
- Date: Fri, 08 Aug 2025 11:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 14:17:28.953867
- Title: Feedback-Guided Extraction of Knowledge Base from Retrieval-Augmented LLM Applications
- Title(参考訳): 検索型LLMアプリケーションからのフィードバックガイドによる知識ベース抽出
- Authors: Changyue Jiang, Xudong Pan, Geng Hong, Chenfu Bao, Yang Chen, Min Yang,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の知識境界を拡張する
エージェントベースのブラックボックス攻撃であるCopyBreakRAGを提案する。
実験結果から,CopyBreakRAGは,チャンク抽出比において,最先端のブラックボックスアプローチを平均45%上回った。
- 参考スコア(独自算出の注目度): 22.2065145193986
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) expands the knowledge boundary of large language models (LLMs) by integrating external knowledge bases, whose construction is often time-consuming and laborious. If an adversary extracts the knowledge base verbatim, it not only severely infringes the owner's intellectual property but also enables the adversary to replicate the application's functionality for unfair competition. Previous works on knowledge base extraction are limited either by low extraction coverage (usually less than 4%) in query-based attacks or by impractical assumptions of white-box access in embedding-based optimization methods. In this work, we propose CopyBreakRAG, an agent-based black-box attack that reasons from feedback and adaptively generates new adversarial queries for progressive extraction. By balancing exploration and exploitation through curiosity-driven queries and feedback-guided query refinement, our method overcomes the limitations of prior approaches and achieves significantly higher extraction coverage in realistic black-box settings. Experimental results show that CopyBreakRAG outperforms the state-of-the-art black-box approach by 45% on average in terms of chunk extraction ratio from applications built with mainstream RAG frameworks, and extracts over 70% of the data from the knowledge base in applications on commercial platforms including OpenAI's GPTs and ByteDance's Coze when essential protection is in place.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の知識境界を拡張し、外部知識ベースを統合する。
相手が知識ベースを冗長に抽出すると、所有者の知的財産を厳しく侵害するだけでなく、相手が不正競争のためにアプリケーションの機能を複製することを可能にする。
知識ベース抽出に関するこれまでの研究は、クエリベースの攻撃における少ない抽出カバレッジ(通常4%未満)や、埋め込みベースの最適化手法におけるホワイトボックスアクセスの非現実的な仮定によって制限されている。
本研究では,エージェントベースのブラックボックス攻撃であるCopyBreakRAGを提案する。
提案手法は,好奇心駆動型クエリとフィードバック誘導型クエリ改善による探索と利用のバランスをとることにより,従来のアプローチの限界を克服し,現実的なブラックボックス設定における抽出カバレッジを大幅に向上させる。
実験の結果、CopyBreakRAGは、主流のRAGフレームワークで構築されたアプリケーションからチャンク抽出比を平均45%上回り、OpenAIのGPTやByteDanceのCozeなどの商用プラットフォーム上での知識ベースから70%以上のデータを抽出することで、最先端のブラックボックスアプローチを平均45%上回ることがわかった。
関連論文リスト
- Fine-Grained Privacy Extraction from Retrieval-Augmented Generation Systems via Knowledge Asymmetry Exploitation [15.985529058573912]
Retrieval-augmented Generation (RAG) システムは、外部知識ベースを統合することにより、大規模言語モデル(LLM)を強化する。
RAGシステムに対する既存のプライバシ攻撃は、データ漏洩を引き起こす可能性があるが、多くの場合、混合応答内で知識ベース由来の文を正確に分離することができない。
本稿では,RAGと標準LLMの知識非対称性を利用したブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T03:50:16Z) - Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。
FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。
モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文 参考訳(メタデータ) (2025-04-27T04:26:02Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [109.53357276796655]
Retrieval Augmented Generation (RAG) を備えたマルチモーダル大言語モデル(MLLM)
RAGはクエリ関連外部知識の応答を基盤としてMLLMを強化する。
この依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを生じさせる。
本稿では,2つの攻撃戦略を持つ新しい知識中毒攻撃フレームワークMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - Pirates of the RAG: Adaptively Attacking LLMs to Leak Knowledge Bases [11.101624331624933]
本稿では,RAGシステムにプライベート知識ベースを漏洩させるブラックボックス攻撃を提案する。
関連性に基づくメカニズムとアタッカーサイドのオープンソース LLM は、(隠された)知識ベースの大部分をリークする効果的なクエリの生成を好んでいる。
論文 参考訳(メタデータ) (2024-12-24T09:03:57Z) - Privacy-Preserving Retrieval-Augmented Generation with Differential Privacy [25.896416088293908]
検索強化世代(RAG)は大規模言語モデル(LLM)を支援するのに特に有効である
RAGは、外部データソースから機密情報を漏洩するリスクを出力する。
機密情報を必要とするトークンに対してのみ、プライバシー予算を賢く費やすアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-06T01:20:16Z) - Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors [15.861833242429228]
本稿では,RAG(Retrieval-Augmented Generation)システムの知識データベースを対象としたデータ抽出攻撃について検討する。
この脆弱性を明らかにするために, LLM内にバックドアを作成するために, 微調整期間中に少量の有毒データを注入するバックドアRAGを提案する。
論文 参考訳(メタデータ) (2024-11-03T22:27:40Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - ConfusedPilot: Confused Deputy Risks in RAG-based LLMs [2.423202571519879]
我々は、Copilotを混乱させ、応答に完全性と機密性を侵害するRAGシステムのセキュリティ脆弱性のクラスであるConfusedPilotを紹介します。
本研究は,現在のRAGベースのシステムにおけるセキュリティ脆弱性を強調し,今後のRAGベースのシステムを保護するための設計ガイドラインを提案する。
論文 参考訳(メタデータ) (2024-08-09T05:20:05Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation [0.9217021281095907]
本稿では,RAGシステムに対して,メンバーシップ推論攻撃(MIA)を行うための効率的かつ使いやすい手法を提案する。
2つのベンチマークデータセットと複数の生成モデルを用いて攻撃の有効性を示す。
本研究は,RAGシステムにおけるセキュリティ対策の実施の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-30T19:46:36Z) - REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain Question Answering [115.72130322143275]
REAR(Relevance-Aware Retrieval-augmented approach for open-domain Question answering, QA)
我々は,特殊な設計のアセスメントモジュールを組み込むことで,LLMベースのRAGシステムのための新しいアーキテクチャを開発する。
オープンドメインの4つのQAタスクの実験では、REARは以前の競争力のあるRAGアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - ActiveRAG: Autonomously Knowledge Assimilation and Accommodation through Retrieval-Augmented Agents [49.30553350788524]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)が外部知識を活用することを可能にする。
既存のRAGモデルは、LLMを受動的情報受信者として扱うことが多い。
人間の学習行動を模倣するマルチエージェントフレームワークであるActiveRAGを紹介する。
論文 参考訳(メタデータ) (2024-02-21T06:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。