論文の概要: RAG-WM: An Efficient Black-Box Watermarking Approach for Retrieval-Augmented Generation of Large Language Models
- arxiv url: http://arxiv.org/abs/2501.05249v1
- Date: Thu, 09 Jan 2025 14:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 17:34:41.511485
- Title: RAG-WM: An Efficient Black-Box Watermarking Approach for Retrieval-Augmented Generation of Large Language Models
- Title(参考訳): RAG-WM:大規模言語モデルの検索強化のための効率的なブラックボックス透かし手法
- Authors: Peizhuo Lv, Mengjie Sun, Hao Wang, Xiaofeng Wang, Shengzhi Zhang, Yuxuan Chen, Kai Chen, Limin Sun,
- Abstract要約: RAG-WMと呼ばれる新しいブラックボックスの「知識透かし」アプローチを提案し、RAGのIP侵害を検出する。
RAG-WMはマルチLLMインタラクションフレームワークを使用して、透かしエンティティ関係に基づいた透かしテキストを作成し、ターゲットRAGに注入する。
実験結果から,RAG-WMは各種のLLMにおいて,盗難されたRAGを効果的に検出することがわかった。
- 参考スコア(独自算出の注目度): 24.88433543377822
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, tremendous success has been witnessed in Retrieval-Augmented Generation (RAG), widely used to enhance Large Language Models (LLMs) in domain-specific, knowledge-intensive, and privacy-sensitive tasks. However, attackers may steal those valuable RAGs and deploy or commercialize them, making it essential to detect Intellectual Property (IP) infringement. Most existing ownership protection solutions, such as watermarks, are designed for relational databases and texts. They cannot be directly applied to RAGs because relational database watermarks require white-box access to detect IP infringement, which is unrealistic for the knowledge base in RAGs. Meanwhile, post-processing by the adversary's deployed LLMs typically destructs text watermark information. To address those problems, we propose a novel black-box "knowledge watermark" approach, named RAG-WM, to detect IP infringement of RAGs. RAG-WM uses a multi-LLM interaction framework, comprising a Watermark Generator, Shadow LLM & RAG, and Watermark Discriminator, to create watermark texts based on watermark entity-relationship tuples and inject them into the target RAG. We evaluate RAG-WM across three domain-specific and two privacy-sensitive tasks on four benchmark LLMs. Experimental results show that RAG-WM effectively detects the stolen RAGs in various deployed LLMs. Furthermore, RAG-WM is robust against paraphrasing, unrelated content removal, knowledge insertion, and knowledge expansion attacks. Lastly, RAG-WM can also evade watermark detection approaches, highlighting its promising application in detecting IP infringement of RAG systems.
- Abstract(参考訳): 近年、ドメイン固有性、知識集約性、プライバシに敏感なタスクにおいて、大規模言語モデル(LLM)の強化に広く使用されるレトリーバル拡張生成(RAG)において、大きな成功を収めている。
しかし、攻撃者はそれらの価値あるRAGを盗み、それらをデプロイまたは商業化する可能性があり、知的財産権(IP)侵害を検出することが不可欠である。
ウォーターマークのような既存の所有権保護ソリューションは、リレーショナルデータベースやテキスト用に設計されている。
関係データベースの透かしはIP侵害を検出するためにホワイトボックスアクセスを必要とするため、RAGには直接適用できないが、RAGの知識ベースでは非現実的である。
一方、敵の展開したLCMによる後処理は、典型的にはテキスト透かし情報を分解する。
これらの問題に対処するため,RAG-WMと呼ばれる新しいブラックボックス「知識透かし」アプローチを提案し,RAGのIP侵害を検出する。
RAG-WMは、Watermark Generator、Shadow LLM & RAG、Watermark DiscriminatorからなるマルチLLMインタラクションフレームワークを使用して、Watermarkエンティティ関連タプルに基づいてウォーターマークテキストを作成し、ターゲットRAGに注入する。
我々は,3つのドメイン固有タスクと2つのプライバシ感受性タスクにまたがるRAG-WMを4つのベンチマークLLMで評価した。
実験結果から,RAG-WMは各種のLLMにおいて,盗難されたRAGを効果的に検出することがわかった。
さらに、RAG-WMは、言い換え、無関係なコンテンツ削除、知識挿入、知識拡張攻撃に対して堅牢である。
最後に、RAG-WMは透かし検出アプローチを回避でき、RAGシステムのIP侵害検出における将来的な応用を強調している。
関連論文リスト
- MES-RAG: Bringing Multi-modal, Entity-Storage, and Secure Enhancements to RAG [65.0423152595537]
本稿では,エンティティ固有のクエリ処理を強化し,正確でセキュアで一貫した応答を提供するMES-RAGを提案する。
MES-RAGは、データアクセスの前に保護を適用してシステムの整合性を確保するための積極的なセキュリティ対策を導入している。
実験の結果,MES-RAGは精度とリコールの両方を著しく改善し,質問応答の安全性と有用性を向上する効果が示された。
論文 参考訳(メタデータ) (2025-03-17T08:09:42Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [109.53357276796655]
Retrieval Augmented Generation (RAG) を備えたマルチモーダル大言語モデル(MLLM)
RAGはクエリ関連外部知識の応答を基盤としてMLLMを強化する。
この依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを生じさせる。
本稿では,2つの攻撃戦略を持つ新しい知識中毒攻撃フレームワークMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。
提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。
検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文 参考訳(メタデータ) (2025-02-15T04:56:45Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Ownership Verification with Reasoning [58.57194301645823]
大規模言語モデル (LLM) は、検索強化生成機構 (RAG) を通じて現実のアプリケーションに統合されつつある。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、通常、中毒攻撃を伴う。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model [17.046058202577985]
我々は、RAGセキュリティを評価するために、SafeRAGというベンチマークを導入する。
まず、アタックタスクを銀のノイズ、コンテキスト間競合、ソフト広告、ホワイト・デニアル・オブ・サービスに分類する。
次に、SafeRAGデータセットを使用して、RAGが遭遇する可能性のあるさまざまな攻撃シナリオをシミュレートします。
論文 参考訳(メタデータ) (2025-01-28T17:01:31Z) - Pirates of the RAG: Adaptively Attacking LLMs to Leak Knowledge Bases [11.101624331624933]
本稿では,RAGシステムにプライベート知識ベースを漏洩させるブラックボックス攻撃を提案する。
関連性に基づくメカニズムとアタッカーサイドのオープンソース LLM は、(隠された)知識ベースの大部分をリークする効果的なクエリの生成を好んでいる。
論文 参考訳(メタデータ) (2024-12-24T09:03:57Z) - Knowledge Database or Poison Base? Detecting RAG Poisoning Attack through LLM Activations [3.706288937295861]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界に対処するために設計された最先端のアプローチである。
RAG中毒は、悪意のあるテキストを知識データベースに注入し、最終的に攻撃者の標的応答(毒殺反応とも呼ばれる)を発生させる。
本稿では, LLMの活性化を利用したフレキシブルかつ自動化された検出パイプラインであるRevPRAGを紹介した。
論文 参考訳(メタデータ) (2024-11-28T06:29:46Z) - mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。
我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。
mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文 参考訳(メタデータ) (2024-11-22T16:15:50Z) - RAG-Thief: Scalable Extraction of Private Data from Retrieval-Augmented Generation Applications with Agent-based Attacks [18.576435409729655]
本稿では,RAG-Thiefと呼ばれるエージェントベースの自動プライバシ攻撃を提案する。
RAGアプリケーションで使用されるプライベートデータベースから、スケーラブルな量のプライベートデータを抽出することができる。
我々の発見は、現在のRAGアプリケーションにおけるプライバシー上の脆弱性を強調し、より強力な保護の必要性を強調します。
論文 参考訳(メタデータ) (2024-11-21T13:18:03Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Phantom: General Trigger Attacks on Retrieval Augmented Language Generation [30.63258739968483]
Retrieval Augmented Generation (RAG)は、現代の大規模言語モデル(LLM)の機能を拡張する
本稿では,RAGシステムの知識ベースに悪意ある文書を1つだけ注入し,バックドア中毒攻撃を行う新たな攻撃ベクトルを提案する。
我々はGemma、Vicuna、Llamaを含む複数のLLMアーキテクチャに対する攻撃を実演し、GPT-3.5 TurboおよびGPT-4への移行を示す。
論文 参考訳(メタデータ) (2024-05-30T21:19:24Z) - Large Language Model Watermark Stealing With Mixed Integer Programming [51.336009662771396]
大きな言語モデル(LLM)の透かしは、著作権に対処し、AI生成したテキストを監視し、その誤用を防ぐことを約束している。
近年の研究では、多数のキーを用いた透かし手法は、攻撃の除去に影響を受けやすいことが示されている。
我々は,最先端のLLM透かしスキームに対する新たなグリーンリスト盗難攻撃を提案する。
論文 参考訳(メタデータ) (2024-05-30T04:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。