論文の概要: Bias Injection Attacks on RAG Databases and Sanitization Defenses
- arxiv url: http://arxiv.org/abs/2512.00804v1
- Date: Sun, 30 Nov 2025 09:27:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.42603
- Title: Bias Injection Attacks on RAG Databases and Sanitization Defenses
- Title(参考訳): RAGデータベースにおけるバイアス注入攻撃と衛生対策
- Authors: Hao Wu, Prateek Saxena,
- Abstract要約: 本稿では,検索強化世代(RAG)システムにおけるベクトルデータベースに対する攻撃と防御について検討する。
バイアス注入攻撃は、事実的に正しいが、意味的に偏ったパスを知識ベースに挿入する。
- 参考スコア(独自算出の注目度): 9.638140849760108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores attacks and defenses on vector databases in retrieval-augmented generation (RAG) systems. Prior work on knowledge poisoning attacks primarily inject false or toxic content, which fact-checking or linguistic analysis easily detects. We reveal a new and subtle threat: bias injection attacks, which insert factually correct yet semantically biased passages into the knowledge base to covertly influence the ideological framing of answers generated by large language models (LLMs). We demonstrate that these adversarial passages, though linguistically coherent and truthful, can systematically crowd out opposing views from the retrieved context and steer LLM answers toward the attacker's intended perspective. We precisely characterize this class of attacks and then develop a post-retrieval filtering defense, BiasDef. We construct a comprehensive benchmark based on public question answering datasets to evaluate them. Our results show that: (1) the proposed attack induces significant perspective shifts in LLM answers, effectively evading existing retrieval-based sanitization defenses; and (2) BiasDef outperforms existing methods by reducing adversarial passages retrieved by 15\% which mitigates perspective shift by 6.2\times in answers, while enabling the retrieval of 62\% more benign passages.
- Abstract(参考訳): 本稿では,検索強化世代(RAG)システムにおけるベクトルデータベースに対する攻撃と防御について検討する。
知識中毒の先行研究は、事実チェックや言語分析が容易に検出できる、主に偽または有毒な内容を注入する。
バイアスインジェクション攻撃は,大規模言語モデル(LLM)が生み出す回答のイデオロギー的フレーミングに隠蔽的に影響を及ぼすために,事実的に正しいが意味的に偏りのあるパスを知識ベースに挿入する。
言語的に一貫性があり真理に富むこれらの逆行は、抽出された文脈から反対の見解を体系的に収集し、攻撃者の意図した視点にLSMの回答を導くことができることを示す。
我々は、このタイプの攻撃を正確に特徴付け、その後、検索後のフィルタリング防衛であるBiasDefを開発する。
公開質問応答データセットに基づいて総合的なベンチマークを構築し,評価する。
以上の結果から, 提案した攻撃は, LLMの回答において重要な視点シフトを誘導し, 既存の検索に基づく衛生対策を効果的に回避し, 2) BiasDefは, 回答の視点シフトを6.2倍減らす15倍減らし, 62倍増の良性パスの検索を可能にし, 既存の手法よりも優れていたことが示唆された。
関連論文リスト
- Defending Against Knowledge Poisoning Attacks During Retrieval-Augmented Generation [9.625480143413405]
Retrieval-Augmented Generation (RAG)は,大規模言語モデル(LLM)の能力向上のための強力なアプローチとして登場した。
そのような攻撃の1つはPoisonedRAGで、注入された敵のテキストがモデルを操り、ターゲットの質問に対する攻撃長応答を生成する。
我々は,PoisonedRAG攻撃を緩和するために,新しい防御手法であるFilterRAGとML-FilterRAGを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:03:52Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。
RAGシステムは、検索コーパスに注入された悪意のある通路が、モデルに誤った結果をもたらす可能性がある、敵の毒殺攻撃に対して脆弱である。
本稿では、RAGシステムがこのような攻撃下でどのように振る舞うか、その堅牢性がどのように改善されるかについて、厳密に制御された実証研究を示す。
論文 参考訳(メタデータ) (2024-12-21T17:31:52Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Backdoor Attacks on Dense Retrieval via Public and Unintentional Triggers [46.19574403393449]
本稿では,攻撃者が検索システムを誤認して攻撃者の特定内容を検索する新たな攻撃シナリオについて検討する。
これらのコンテンツは、攻撃者によって検索コーパスに注入され、ヘイトスピーチやスパムのような有害なテキストを含むことができる。
モデル重みに頼り、顕著で不自然な出力を生成する従来の手法とは異なり、文法エラーによって引き起こされる隠れたバックドア攻撃を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:03:07Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。