論文の概要: Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Ownership Verification with Reasoning
- arxiv url: http://arxiv.org/abs/2502.10440v1
- Date: Mon, 10 Feb 2025 09:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 03:23:14.815691
- Title: Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Ownership Verification with Reasoning
- Title(参考訳): 推論によるオーナシップ検証による検索言語モデルの知識ベースに対する著作権保護に向けて
- Authors: Junfeng Guo, Yiming Li, Ruibo Chen, Yihan Wu, Chenxi Liu, Yanshuo Chen, Heng Huang,
- Abstract要約: 大規模言語モデル (LLM) は、検索強化生成機構 (RAG) を通じて現実のアプリケーションに統合されつつある。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、通常、中毒攻撃を伴う。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
- 参考スコア(独自算出の注目度): 58.57194301645823
- License:
- Abstract: Large language models (LLMs) are increasingly integrated into real-world applications through retrieval-augmented generation (RAG) mechanisms to supplement their responses with up-to-date and domain-specific knowledge. However, the valuable and often proprietary nature of the knowledge bases used in RAG introduces the risk of unauthorized usage by adversaries. Existing methods that can be generalized as watermarking techniques to protect these knowledge bases typically involve poisoning attacks. However, these methods require to alter the results of verification samples (\eg, generating incorrect outputs), inevitably making them susceptible to anomaly detection and even introduce new security risks. To address these challenges, we propose \name{} for `harmless' copyright protection of knowledge bases. Instead of manipulating LLM's final output, \name{} implants distinct verification behaviors in the space of chain-of-thought (CoT) reasoning, maintaining the correctness of the final answer. Our method has three main stages: (1) \textbf{Generating CoTs}: For each verification question, we generate two CoTs, including a target CoT for building watermark behaviors; (2) \textbf{Optimizing Watermark Phrases and Target CoTs}: We optimize them to minimize retrieval errors under the black-box setting of suspicious LLM, ensuring that the watermarked verification queries activate the target CoTs without being activated in non-watermarked ones; (3) \textbf{Ownership Verification}: We exploit a pairwise Wilcoxon test to statistically verify whether a suspicious LLM is augmented with the protected knowledge base by comparing its responses to watermarked and benign verification queries. Our experiments on diverse benchmarks demonstrate that \name{} effectively protects knowledge bases against unauthorized usage while preserving the integrity and performance of the RAG.
- Abstract(参考訳): 大規模言語モデル(LLM)は、検索強化生成(RAG)機構を通じて、最新のドメイン固有の知識で応答を補うことで、現実のアプリケーションにますます統合されている。
しかしながら、RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、通常、中毒攻撃を伴う。
しかし、これらの手法では、検証サンプルの結果を変更し(不正な出力を生成する)、必然的に異常検出を許容し、新たなセキュリティリスクを発生させる必要がある。
これらの課題に対処するため,知識基盤の「無害」著作権保護のためのname{}を提案する。
LLMの最終出力を操作する代わりに、 \name{} は最後の答えの正しさを保ちながら、チェーン・オブ・シント(CoT)推論の空間に明確な検証挙動を埋め込む。
提案手法は,(1) <textbf{Generating CoTs}: 各検証質問に対して,2つのCoTを生成し,(2) <textbf{Optimizing Watermark Phrases and Target CoTs}: 疑わしいLCMのブラックボックス設定下での検索誤差を最小限に抑えるために最適化する。
多様なベンチマーク実験により,知識ベースをRAGの完全性と性能を維持しつつ,無許可使用から効果的に保護できることが示されている。
関連論文リスト
- Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。
提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。
検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文 参考訳(メタデータ) (2025-02-15T04:56:45Z) - RAG-WM: An Efficient Black-Box Watermarking Approach for Retrieval-Augmented Generation of Large Language Models [24.88433543377822]
RAG-WMと呼ばれる新しいブラックボックスの「知識透かし」アプローチを提案し、RAGのIP侵害を検出する。
RAG-WMはマルチLLMインタラクションフレームワークを使用して、透かしエンティティ関係に基づいた透かしテキストを作成し、ターゲットRAGに注入する。
実験結果から,RAG-WMは各種のLLMにおいて,盗難されたRAGを効果的に検出することがわかった。
論文 参考訳(メタデータ) (2025-01-09T14:01:15Z) - TrustRAG: Enhancing Robustness and Trustworthiness in RAG [31.231916859341865]
TrustRAGは、世代ごとに取得される前に、妥協されたコンテンツと無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、既存のアプローチと比較して、検索精度、効率、攻撃抵抗を大幅に改善している。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - Bileve: Securing Text Provenance in Large Language Models Against Spoofing with Bi-level Signature [39.973130114073605]
整合性チェックのための微細なシグネチャビットを埋め込んだバイレベルシグネチャスキームであるBileveを導入する。
Bileveは、検出中に5つのシナリオを区別し、テキストを確実にトレースし、LLMを制御する。
論文 参考訳(メタデータ) (2024-06-04T03:58:14Z) - DIP-Watermark: A Double Identity Protection Method Based on Robust Adversarial Watermark [13.007649270429493]
顔認識(FR)システムはプライバシーのリスクを引き起こす。
1つの対策は敵攻撃であり、不正な悪意のあるFRを欺くことである。
トレース可能な対角線透かしに基づく最初の二重識別保護方式を提案する。
論文 参考訳(メタデータ) (2024-04-23T02:50:38Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - WatME: Towards Lossless Watermarking Through Lexical Redundancy [58.61972059246715]
本研究では,認知科学レンズを用いた大規模言語モデル(LLM)の異なる機能に対する透かしの効果を評価する。
透かしをシームレスに統合するための相互排他型透かし(WatME)を導入する。
論文 参考訳(メタデータ) (2023-11-16T11:58:31Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - ADC: Adversarial attacks against object Detection that evade Context
consistency checks [55.8459119462263]
文脈整合性チェックさえも、適切に構築された敵の例に対して脆弱であることを示す。
このような防御を覆す実例を生成するための適応型フレームワークを提案する。
我々の結果は、コンテキストを堅牢にモデル化し、一貫性をチェックする方法はまだ未解決の問題であることを示している。
論文 参考訳(メタデータ) (2021-10-24T00:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。