論文の概要: Safeguarding RAG Pipelines with GMTP: A Gradient-based Masked Token Probability Method for Poisoned Document Detection
- arxiv url: http://arxiv.org/abs/2507.18202v1
- Date: Thu, 24 Jul 2025 08:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.314101
- Title: Safeguarding RAG Pipelines with GMTP: A Gradient-based Masked Token Probability Method for Poisoned Document Detection
- Title(参考訳): GMTPによるRAGパイプラインの保護--Phoisoned Document Detectionのためのグラディエントベースマスケトケ確率法
- Authors: San Kim, Jonghwi Kim, Yejin Jeon, Gary Geunbae Lee,
- Abstract要約: Masked Token Probability (GMTP) は、敵に作られた文書を検出・フィルタリングする新しい防御手法である。
GMTPは、関連する文書を保持しながら、90%以上の有毒なコンテンツを除去することができる。
- 参考スコア(独自算出の注目度): 4.097348267752512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) enhances Large Language Models (LLMs) by providing external knowledge for accurate and up-to-date responses. However, this reliance on external sources exposes a security risk, attackers can inject poisoned documents into the knowledge base to steer the generation process toward harmful or misleading outputs. In this paper, we propose Gradient-based Masked Token Probability (GMTP), a novel defense method to detect and filter out adversarially crafted documents. Specifically, GMTP identifies high-impact tokens by examining gradients of the retriever's similarity function. These key tokens are then masked, and their probabilities are checked via a Masked Language Model (MLM). Since injected tokens typically exhibit markedly low masked-token probabilities, this enables GMTP to easily detect malicious documents and achieve high-precision filtering. Experiments demonstrate that GMTP is able to eliminate over 90% of poisoned content while retaining relevant documents, thus maintaining robust retrieval and generation performance across diverse datasets and adversarial settings.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、高精度かつ最新の応答のための外部知識を提供することで、Large Language Models (LLM)を強化する。
しかし、外部ソースへの依存はセキュリティ上のリスクを露呈し、攻撃者は有害な文書を知識ベースに注入して、有害または誤解を招くアウトプットに対して生成プロセスを制御できる。
本稿では,敵対的な文書を検出・フィルタリングする新しい防御手法であるMasked Token Probability (GMTP)を提案する。
特に, GMTPは, 検索者の類似度関数の勾配を調べることによって, 高インパクトトークンを識別する。
これらのキートークンはマスクされ、その確率はMasked Language Model (MLM)を介してチェックされる。
射出トークンは通常、マスク付きトークンの確率が著しく低いため、GMTPは悪意のある文書を容易に検出し、高精度なフィルタリングを実現することができる。
実験により、GMTPは関連する文書を保持しながら、90%以上の有毒なコンテンツを排除し、多様なデータセットと敵対的な設定で堅牢な検索と生成性能を維持することができることが示された。
関連論文リスト
- Exploring Gradient-Guided Masked Language Model to Detect Textual Adversarial Attacks [50.53590930588431]
敵対的な例は 自然言語処理システムに深刻な脅威をもたらします
近年の研究では、対角的テキストは通常のテキストの多様体から逸脱していることが示唆されているが、マスク付き言語モデルは正規データの多様体を近似することができる。
まず、マスク付き言語モデリング(MLM)の目的のマスクアンマスク操作を活用するMLMD(Masked Language Model-based Detection)を導入する。
論文 参考訳(メタデータ) (2025-04-08T14:10:57Z) - Tricking Retrievers with Influential Tokens: An Efficient Black-Box Corpus Poisoning Attack [45.005322238797866]
検索増強された世代システムは、コーパス中毒の攻撃に対して脆弱である。
本稿では,動的重要度誘導型遺伝的アルゴリズム(DIGA)を提案する。
DIGAは既存の方法に比べて効率とスケーラビリティが優れている。
論文 参考訳(メタデータ) (2025-03-27T09:54:37Z) - Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。
提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。
検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文 参考訳(メタデータ) (2025-02-15T04:56:45Z) - Mask-based Membership Inference Attacks for Retrieval-Augmented Generation [25.516648802281626]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を緩和するための効果的なアプローチである。
近年,LLMトレーニングに使用せず,RAGナレッジデータベースに最新のデータや著作権データを格納する傾向にある。
このプラクティスは、特定のターゲットドキュメントがRAGシステムのナレッジデータベースに格納されているかどうかを検出することを目的とした、メンバーシップ推論攻撃(MIAs)に対する懸念を提起している。
論文 参考訳(メタデータ) (2024-10-26T10:43:39Z) - Adversarial Decoding: Generating Readable Documents for Adversarial Objectives [9.200635465485067]
新しい汎用テキスト生成技術は、異なる対向目的に対して読みやすい文書を生成する。
従来の方法は容易に検出可能なジベリッシュを生成するか、あるいは埋め込み類似性を含む目的を扱うことができない。
我々は, RAG中毒, 脱獄, 防御フィルターの回避など, 異なる目的に対して, 敵復号の有効性を計測した。
論文 参考訳(メタデータ) (2024-10-03T03:06:42Z) - On the Vulnerability of Applying Retrieval-Augmented Generation within Knowledge-Intensive Application Domains [32.71308102835446]
Retrieval-Augmented Generation (RAG)は、知識集約ドメインにおける大規模言語モデル(LLM)の性能向上を実証的に示している。
医学的Q&Aにおいて,RAGは普遍的な毒殺攻撃に弱いことが示唆された。
我々は、RAGの安全な使用を保証するために、新しい検出ベースの防御を開発する。
論文 参考訳(メタデータ) (2024-09-12T02:43:40Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Reading Order Matters: Information Extraction from Visually-rich
Documents by Token Path Prediction [30.827288164068992]
トークンパス予測(TPP)は、ドキュメント内のトークンシーケンスとしてエンティティの参照を予測する単純な予測ヘッドである。
TPPは、ドキュメントレイアウトをトークンの完全な有向グラフとしてモデル化し、グラフ内のトークンパスをエンティティとして予測する。
また, VrD-NERシステムの性能評価のために, スキャンした文書に対して, NERのベンチマークデータセットを2つ改訂した。
論文 参考訳(メタデータ) (2023-10-17T06:08:55Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Dual Spoof Disentanglement Generation for Face Anti-spoofing with Depth
Uncertainty Learning [54.15303628138665]
フェース・アンチ・スプーフィング(FAS)は、顔認識システムが提示攻撃を防ぐ上で重要な役割を担っている。
既存のフェース・アンチ・スプーフィング・データセットは、アイデンティティと重要なばらつきが不十分なため、多様性を欠いている。
我々は「生成によるアンチ・スプーフィング」によりこの問題に対処するデュアル・スポット・ディアンタングメント・ジェネレーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-01T15:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。