論文の概要: Who Stole Your Data? A Method for Detecting Unauthorized RAG Theft
- arxiv url: http://arxiv.org/abs/2510.07728v1
- Date: Thu, 09 Oct 2025 03:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.832026
- Title: Who Stole Your Data? A Method for Detecting Unauthorized RAG Theft
- Title(参考訳): 誰があなたのデータを盗んだのか? 不正なRAG盗難を検知する方法
- Authors: Peiyang Liu, Ziqiang Cui, Di Liang, Wei Ye,
- Abstract要約: 本稿では,RAGプラジャリズム検出に特化して設計された新しいデータセットであるRADを紹介する。
セマンティックレベルと語彙レベルの両方で保護を埋め込んだ二重層透かしシステムを開発した。
この研究は、検索強化AIシステムにおける知的財産権保護の基盤となる枠組みを確立する。
- 参考スコア(独自算出の注目度): 16.826893547339548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) enhances Large Language Models (LLMs) by mitigating hallucinations and outdated information issues, yet simultaneously facilitates unauthorized data appropriation at scale. This paper addresses this challenge through two key contributions. First, we introduce RPD, a novel dataset specifically designed for RAG plagiarism detection that encompasses diverse professional domains and writing styles, overcoming limitations in existing resources. Second, we develop a dual-layered watermarking system that embeds protection at both semantic and lexical levels, complemented by an interrogator-detective framework that employs statistical hypothesis testing on accumulated evidence. Extensive experimentation demonstrates our approach's effectiveness across varying query volumes, defense prompts, and retrieval parameters, while maintaining resilience against adversarial evasion techniques. This work establishes a foundational framework for intellectual property protection in retrieval-augmented AI systems.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、幻覚や古い情報問題を緩和し、Large Language Models (LLMs) を増強するが、同時に大規模データの不正な適用を促進する。
本稿では,この課題を2つの重要なコントリビューションを通じて解決する。
まず,RAGプラジャリズム検出に特化して設計された新たなデータセットであるRDDを紹介し,既存のリソースの制限を克服し,多様なプロフェッショナルドメインと書き込みスタイルを包含する。
第2に,蓄積された証拠を統計的に検証する質問者検出フレームワークを用いて,意味レベルと語彙レベルの両方で保護を埋め込んだ二重層透かしシステムを開発した。
大規模実験により, 敵の回避技術に対する回復力を維持しつつ, 様々なクエリボリューム, 防御プロンプト, 検索パラメータにまたがるアプローチの有効性を実証した。
この研究は、検索強化AIシステムにおける知的財産権保護の基盤となる枠組みを確立する。
関連論文リスト
- ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search [69.60882125603133]
本稿では,検索した文書の信頼性情報を明確に活用する,敵対的堅牢性のためのフレームワークであるReliabilityRAGを提案する。
我々の研究は、RAGの回収されたコーパスの腐敗に対するより効果的で確実に堅牢な防御に向けた重要な一歩である。
論文 参考訳(メタデータ) (2025-09-27T22:36:42Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [70.77570343385928]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。
回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。
さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。
私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文 参考訳(メタデータ) (2025-07-08T03:07:15Z) - Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。
提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。
検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文 参考訳(メタデータ) (2025-02-15T04:56:45Z) - On the Vulnerability of Applying Retrieval-Augmented Generation within Knowledge-Intensive Application Domains [32.71308102835446]
Retrieval-Augmented Generation (RAG)は、知識集約ドメインにおける大規模言語モデル(LLM)の性能向上を実証的に示している。
医学的Q&Aにおいて,RAGは普遍的な毒殺攻撃に弱いことが示唆された。
我々は、RAGの安全な使用を保証するために、新しい検出ベースの防御を開発する。
論文 参考訳(メタデータ) (2024-09-12T02:43:40Z) - Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation [0.9217021281095907]
本稿では,RAGシステムに対して,メンバーシップ推論攻撃(MIA)を行うための効率的かつ使いやすい手法を提案する。
2つのベンチマークデータセットと複数の生成モデルを用いて攻撃の有効性を示す。
本研究は,RAGシステムにおけるセキュリティ対策の実施の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-30T19:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。