論文の概要: Whispers in Grammars: Injecting Covert Backdoors to Compromise Dense Retrieval Systems
- arxiv url: http://arxiv.org/abs/2402.13532v2
- Date: Tue, 17 Dec 2024 06:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:55:36.689814
- Title: Whispers in Grammars: Injecting Covert Backdoors to Compromise Dense Retrieval Systems
- Title(参考訳): 文法におけるWhisper:Dense Retrieval Systemsを補完するためにカバーされたバックドアを注入する
- Authors: Quanyu Long, Yue Deng, LeiLei Gan, Wenya Wang, Sinno Jialin Pan,
- Abstract要約: 本稿では,攻撃者が検索システムを誤認して攻撃者の特定内容を検索する新たな攻撃シナリオについて検討する。
これらのコンテンツは、攻撃者によって検索コーパスに注入され、ヘイトスピーチやスパムのような有害なテキストを含むことができる。
モデル重みに頼り、顕著で不自然な出力を生成する従来の手法とは異なり、文法エラーによって引き起こされる隠れたバックドア攻撃を提案する。
- 参考スコア(独自算出の注目度): 40.131588857153275
- License:
- Abstract: Dense retrieval systems have been widely used in various NLP applications. However, their vulnerabilities to potential attacks have been underexplored. This paper investigates a novel attack scenario where the attackers aim to mislead the retrieval system into retrieving the attacker-specified contents. Those contents, injected into the retrieval corpus by attackers, can include harmful text like hate speech or spam. Unlike prior methods that rely on model weights and generate conspicuous, unnatural outputs, we propose a covert backdoor attack triggered by grammar errors. Our approach ensures that the attacked models can function normally for standard queries while covertly triggering the retrieval of the attacker's contents in response to minor linguistic mistakes. Specifically, dense retrievers are trained with contrastive loss and hard negative sampling. Surprisingly, our findings demonstrate that contrastive loss is notably sensitive to grammatical errors, and hard negative sampling can exacerbate susceptibility to backdoor attacks. Our proposed method achieves a high attack success rate with a minimal corpus poisoning rate of only 0.048%, while preserving normal retrieval performance. This indicates that the method has negligible impact on user experience for error-free queries. Furthermore, evaluations across three real-world defense strategies reveal that the malicious passages embedded within the corpus remain highly resistant to detection and filtering, underscoring the robustness and subtlety of the proposed attack.
- Abstract(参考訳): デンス検索システムは様々なNLPアプリケーションで広く利用されている。
しかし、攻撃の可能性に対する脆弱性は過小評価されている。
本稿では,攻撃者が検索システムを誤認して攻撃者の特定内容を検索する新たな攻撃シナリオについて検討する。
これらのコンテンツは、攻撃者によって検索コーパスに注入され、ヘイトスピーチやスパムのような有害なテキストを含むことができる。
モデル重みに頼り、顕著で不自然な出力を生成する従来の手法とは異なり、文法エラーによって引き起こされる隠れたバックドア攻撃を提案する。
提案手法は,攻撃対象モデルが通常のクエリに対して正常に機能することを保証するとともに,小さな言語的誤りに対応するため,攻撃対象のコンテンツの検索を隠蔽的にトリガーすることを保証する。
具体的には、高密度レトリバーは対照的な損失と強い負のサンプリングで訓練される。
意外なことに, 対照的な損失は文法的誤りに特に敏感であり, ハードネガティブサンプリングはバックドア攻撃に対する感受性を悪化させる可能性がある。
提案手法は, 正常検索性能を維持しつつ, 0.048% の最小コーパス中毒率で高い攻撃成功率を達成する。
このことは,エラーのないクエリに対するユーザエクスペリエンスに無視できる影響があることを示唆している。
さらに、実世界の3つの防衛戦略に対する評価では、コーパス内に埋め込まれた悪意ある通路は、検出とフィルタリングに強く抵抗し、提案された攻撃の頑丈さと微妙さを強調している。
関連論文リスト
- Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Document Screenshot Retrievers are Vulnerable to Pixel Poisoning Attacks [72.4498910775871]
ヴィジュアル言語モデル(VLM)ベースのレトリバーは、ベクターとして埋め込まれた文書のスクリーンショットを活用して、効率的な検索を可能にし、従来のテキストのみの手法よりも単純化されたパイプラインを提供する。
本研究では,VLMをベースとしたレトリバーを危険にさらすために,3つのピクセル中毒攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T12:40:37Z) - Punctuation Matters! Stealthy Backdoor Attack for Language Models [36.91297828347229]
バックドアモデルは、テキスト上で不適切に実行しながら、クリーンなサンプルに対して正常な出力を生成する。
いくつかの攻撃方法は文法的な問題を引き起こしたり、元のテキストの意味を変更したりする。
我々は,textbfPuncAttackと呼ばれる,テキストモデルに対する新たなステルスバックドア攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T03:26:20Z) - Poisoning Retrieval Corpora by Injecting Adversarial Passages [79.14287273842878]
本稿では,悪意のあるユーザが少数の逆行を発生させるような,高密度検索システムに対する新たな攻撃を提案する。
これらの逆行路を大規模な検索コーパスに挿入すると、この攻撃はこれらのシステムを騙すのに非常に効果的であることを示す。
また、教師なしと教師なしの両方の最先端の高密度レトリバーをベンチマークし、比較する。
論文 参考訳(メタデータ) (2023-10-29T21:13:31Z) - Mitigating Backdoor Poisoning Attacks through the Lens of Spurious
Correlation [43.75579468533781]
バックドアは、特定のトリガーとターゲットラベルでトレーニングインスタンスを作成できる。
本論文は, バックドア毒殺事件は, 単純なテキスト特徴と分類ラベルとの間には明白な相関関係があることを示唆する。
実験により、悪意のあるトリガーはターゲットラベルと高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2023-05-19T11:18:20Z) - Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。
本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文 参考訳(メタデータ) (2023-05-02T06:19:36Z) - Detecting Backdoors in Deep Text Classifiers [43.36440869257781]
本稿では,テキスト分類モデルに対するバックドア攻撃を一般化する,最初の堅牢な防御機構を提案する。
我々の技術は、データ中毒や重毒など、最先端のバックドア攻撃に対する防御に極めて正確です。
論文 参考訳(メタデータ) (2022-10-11T07:48:03Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。