論文の概要: RAGShield: Detecting Numerical Claim Manipulation in Government RAG Systems
- arxiv url: http://arxiv.org/abs/2604.00387v2
- Date: Sat, 04 Apr 2026 07:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 12:54:54.558566
- Title: RAGShield: Detecting Numerical Claim Manipulation in Government RAG Systems
- Title(参考訳): RAGShield:政府RAGシステムにおける数値的クレーム操作の検出
- Authors: KrishnaSaiReddy Patil,
- Abstract要約: RAGシステムは、市民が対象とする税制指導、給付資格、法的情報のために連邦政府機関に展開されている。
この論文は、埋め込み型RAG防衛が基本的盲点を共有していることを証明している:5万ドルの税控除を変更することで、既知のあらゆる検知しきい値に見えないコサイン類似度0.9998が生成される。
盲点は実際のIRS文書で確認されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems are deployed across federal agencies for citizen-facing tax guidance, benefits eligibility, and legal information, where a single incorrect number causes direct financial harm. This paper proves that all embedding-based RAG defenses share a fundamental blind spot: changing a tax deduction by $50,000 produces cosine similarity 0.9998, invisible to every known detection threshold. Across 174 manipulation pairs and two embedding models, the mean sensitivity gap is 1,459x. The blind spot is confirmed on real IRS documents.The root cause is that embeddings encode topic, not numerical precision. RAGShield sidesteps this by operating on extracted values directly: a pattern-based engine identifies dollar amounts and percentages in government text, links each value to its governing entity through two-pass context propagation (99.8% entity detection on 2,742 real IRS passages), and verifies every claim against a cross-source registry built from the corpus itself. A temporal tracker flags value changes that fall outside known government update schedules. On 430 attacks generated from real IRS document content, RAGShield detects every one (0.0% ASR, 95% CI [0%, 1%]) while embedding-based defenses miss 79-90% of the same attacks.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、連邦政府機関に展開され、市民が直面する税のガイダンス、利得の適格性、法的な情報を提供する。
この論文は、埋め込み型RAG防衛が基本的盲点を共有していることを証明している:5万ドルの税控除を変更することで、既知のあらゆる検知しきい値に見えないコサイン類似度0.9998が生成される。
174対の操作ペアと2つの埋め込みモデルに対して、平均感度ギャップは1,459xである。
ブラインドスポットは実際のIRS文書で確認されており、その根本原因はエンコードされたトピックであり、数値的な精度ではない。
RAGShieldは、抽出された値を直接操作することでこれを後押しする: パターンベースのエンジンは、政府のテキストのドルとパーセンテージを識別し、各値を2パスのコンテキスト伝搬(2,742の実IRS通路での99.8%のエンティティ検出)を通じてその管理エンティティにリンクし、コーパス自体から構築されたクロスソースレジストリに対するすべてのクレームを検証する。
時間トラッカーは、既知の政府の更新スケジュール外にある値の変更をフラグする。
実際のIRSドキュメントコンテンツから生成された430の攻撃に対して、RAGShieldはすべての攻撃(0.0% ASR, 95% CI [0%, 1%])を検出し、埋め込みベースの防御は同じ攻撃の79-90%を逃した。
関連論文リスト
- Semantic Chameleon: Corpus-Dependent Poisoning Attacks and Defenses in RAG Systems [0.0]
Retrieval-Augmented Generation (RAG) システムは、大きな言語モデルを外部知識ソースで拡張する。
特に、敵は、悪意のある文書が推論時に優先的に検索されるように、毒検索コーパスを付与することができる。
本研究では,最近のRAGパイプラインに対するグラデーション誘導コーパス中毒攻撃について検討し,検索層防御の評価を行った。
論文 参考訳(メタデータ) (2026-03-10T23:15:13Z) - AI Security Beyond Core Domains: Resume Screening as a Case Study of Adversarial Vulnerabilities in Specialized LLM Applications [71.27518152526686]
大きな言語モデル(LLM)はテキストの理解と生成に優れており、コードレビューやコンテンツモデレーションといった自動タスクに最適である。
LLMは履歴書やコードなどの入力データに隠された「逆命令」で操作でき、意図したタスクから逸脱する。
本稿では,特定の攻撃タイプに対して80%以上の攻撃成功率を示すとともに,この脆弱性を再開スクリーニングで評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2025-12-23T08:42:09Z) - Rescuing the Unpoisoned: Efficient Defense against Knowledge Corruption Attacks on RAG Systems [11.812488957698038]
大規模言語モデル(LLM)は私たちの日常生活の多くの側面を変え、Webベースのサービスとして広く採用されています。
検索・拡張生成(RAG)は,外部知識ソースに根ざした応答を生成することによって,将来性のある方向として登場した。
近年の研究では、誤情報注入による知識腐敗攻撃など、RAGの脆弱性が実証されている。
本稿では,知識汚職に対する資源効率のよい防御機構であるRAGDefenderを紹介する。
論文 参考訳(メタデータ) (2025-11-03T06:39:58Z) - ADMIT: Few-shot Knowledge Poisoning Attacks on RAG-based Fact Checking [42.283307608442946]
知識中毒はレトリーバル増強世代(RAG)システムにとって重大な脅威となる。
textbfADMIT (textbfADversarial textbfMulti-textbfInjection textbfTechnique) は、事実チェックの決定を覆す意味論的に整合した中毒攻撃である。
論文 参考訳(メタデータ) (2025-10-11T14:50:40Z) - Malice in Agentland: Down the Rabbit Hole of Backdoors in the AI Supply Chain [82.98626829232899]
自分自身のインタラクションからのデータに対する微調整のAIエージェントは、AIサプライチェーン内の重要なセキュリティ脆弱性を導入している。
敵は容易にデータ収集パイプラインに毒を盛り、検出しにくいバックドアを埋め込むことができる。
論文 参考訳(メタデータ) (2025-10-03T12:47:21Z) - One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems [28.06028279729382]
Retrieval-Augmented Generation (RAG)により強化されたLarge Language Models (LLMs) は、正確な応答を生成する際の性能改善を示す。
外部知識ベースへの依存は、潜在的なセキュリティ脆弱性をもたらす。
本稿では,RAGシステムに対するより現実的な知識中毒攻撃を明らかにし,単一の文書のみを毒殺することで攻撃を成功させる。
論文 参考訳(メタデータ) (2025-05-15T08:14:58Z) - Traceback of Poisoning Attacks to Retrieval-Augmented Generation [18.902988029537365]
研究によると、RAGの毒殺攻撃に対する感受性が明らかとなり、攻撃者は知識データベースに有毒なテキストを注入した。
既存の防衛は、主に推論時間の緩和に焦点を当てており、高度な攻撃に対して不十分であることが証明されている。
本稿では,RAGの最初のトレースバックシステムであるRAGForensicsを紹介し,攻撃に責任を持つ知識データベース内の有毒テキストを識別する。
論文 参考訳(メタデータ) (2025-04-30T14:10:02Z) - Poisoning Retrieval Corpora by Injecting Adversarial Passages [79.14287273842878]
本稿では,悪意のあるユーザが少数の逆行を発生させるような,高密度検索システムに対する新たな攻撃を提案する。
これらの逆行路を大規模な検索コーパスに挿入すると、この攻撃はこれらのシステムを騙すのに非常に効果的であることを示す。
また、教師なしと教師なしの両方の最先端の高密度レトリバーをベンチマークし、比較する。
論文 参考訳(メタデータ) (2023-10-29T21:13:31Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。