論文の概要: SilentRetrieval: Hijacking Retrieval-Augmented Generation via Semantically-Preserving Adversarial Data Poisoning
- arxiv url: http://arxiv.org/abs/2605.28074v1
- Date: Wed, 27 May 2026 07:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.8451
- Title: SilentRetrieval: Hijacking Retrieval-Augmented Generation via Semantically-Preserving Adversarial Data Poisoning
- Title(参考訳): SilentRetrieval: セマンティックに保存された逆データポジショニングによる検索強化ジェネレーションのハイジャック
- Authors: Jiachen Qian,
- Abstract要約: SilentRetrievalは2段階のデータ中毒攻撃で、RAGシステムを敵対的な文書でハイジャックする。
SilentRetrievalは84.6%/81.3% HR@10、57.5%/54.8% ASR-LLM on Natural QuestionsとMS MARCOを達成している。
- 参考スコア(独自算出の注目度): 1.0998907972211756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) mitigates LLM hallucinations but introduces a critical vulnerability: corpus integrity. We present SilentRetrieval, a two-stage data poisoning attack that hijacks RAG systems through adversarially crafted yet fluent documents. Stage 1 uses Coordinated Beam Search, a multi-token joint optimization method with a fluency-similarity objective, to keep a poisoned host document retrievable while constraining perplexity. Stage 2 uses Context-Adaptive Trigger Generation, a lightweight trigger-fusion step driven by a frozen LLM, to integrate manipulation triggers into document content. Under a one-poisoned-document-per-query evaluation with synthetic target answers, SilentRetrieval achieves 84.6%/81.3% HR@10 and 57.5%/54.8% ASR-LLM on Natural Questions and MS MARCO, while maintaining near-benign perplexity. Cross-model evaluation across four target LLMs shows nontrivial effectiveness under a fixed trigger generator, and transfer tests against unseen retrievers, including ColBERT and commercial embedding models, yield 64.7% average HR@10 under the same injected-corpus protocol. In a sampled Wikipedia-scale evaluation, SilentRetrieval retains 74.2% HR@10 at a 0.016% poisoning ratio. Combined retrieval-side and generation-side defenses reduce attack success substantially but incur a latency trade-off. Human evaluation shows substantially lower flag rates than disfluent baselines, while remaining numerically more suspicious than benign content at the current sample size.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)はLLM幻覚を緩和するが、重大な脆弱性であるコーパスの完全性をもたらす。
SilentRetrievalは2段階のデータ中毒攻撃で、RAGシステムを敵対的に作られたが流用する文書でハイジャックする。
ステージ1では、多点共同最適化手法であるCoordinated Beam Searchを用いて、難易度を制約しながら有毒なホスト文書の検索を可能にする。
ステージ2では、フリーズLDMによって駆動される軽量トリガ融合ステップであるContext-Adaptive Trigger Generationを使用して、操作トリガをドキュメントコンテンツに統合する。
SilentRetrievalは、合成目標回答による1対1のドキュメンテーション評価のもと、84.6%/81.3% HR@10と57.5%/54.8% ASR-LLM on Natural QuestionsとMS MARCOをほぼ良性を維持しながら達成している。
4つの目標LLM間のクロスモデル評価は、固定トリガ発生器の下では非自明な有効性を示し、ColBERTや商用埋め込みモデルを含む未確認レトリバーに対する転送テストは、同じインジェクションコーパスプロトコルの下で平均64.7%のHR@10を生成する。
ウィキペディア規模のサンプル評価では、SilentRetrievalは74.2%のHR@10を0.016%の中毒率で保持している。
検索側とジェネレーション側による防御の組み合わせは、攻撃の成功を大幅に減少させるが、遅延トレードオフを引き起こす。
人的評価では, フラッグレートは, 流動性ベースラインよりも有意に低いが, 現在のサンプルサイズでは良性コンテンツよりも数値的に疑わしい。
関連論文リスト
- DeepSeek Robustness Against Semantic-Character Dual-Space Mutated Prompt Injection [45.67420390185547]
本稿では,プロンプトインジェクションに対するロバスト性を評価するためのセマンティックキャラクタであるPromptFuzz-SCを提案する。
Epsilon-greedy 探索とヒルクライミングの改良を組み合わせたハイブリッド探索手法を採用し,高品質な対向プロンプトを効率的に発見する。
DeepSeekの実験結果によると、二重空間変異は攻撃性能が最強であることが示されている。
論文 参考訳(メタデータ) (2026-04-14T10:20:15Z) - AdversarialCoT: Single-Document Retrieval Poisoning for LLM Reasoning [115.3243260783674]
Retrieval-augmented Generation (RAG) は、外部文書を取得することにより、大きな言語モデル(LLM)推論を強化する。
攻撃者が悪意のあるコンテンツを検索コーパスに注入するRAGにおける知識ベース中毒攻撃について検討した。
AdversarialCoTは、コーパス内の1つのドキュメントだけを毒化するクエリ固有の攻撃である。
論文 参考訳(メタデータ) (2026-04-14T02:10:23Z) - StutterFuse: Mitigating Modality Collapse in Stuttering Detection with Jaccard-Weighted Metric Learning and Gated Fusion [0.40105987447353786]
散乱検出は、拡散が重なると故障する。
既存のパラメトリックモデルは、複雑で同時的な分散を区別するのに苦労する。
マルチラベル検出のための最初のレトリーバル拡張一般化(RAC)であるStutterFuseを紹介する。
論文 参考訳(メタデータ) (2025-12-15T18:28:39Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Efficient Trigger Word Insertion [9.257916713112945]
我々の主な目的は、テキストバックドア攻撃において、良好なアタック成功率(ASR)を達成しつつ、有毒なサンプルの数を減らすことである。
トリガー語最適化と有毒なサンプル選択の観点から,効率的なトリガー語挿入戦略を提案する。
提案手法は, 汚れラベル設定で有毒な試料が10個あれば90%以上を達成でき, クリーンラベル設定ではトレーニングデータの1.5%しか必要としない。
論文 参考訳(メタデータ) (2023-11-23T12:15:56Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。