論文の概要: Backdoor Attacks on Dense Passage Retrievers for Disseminating
Misinformation
- arxiv url: http://arxiv.org/abs/2402.13532v1
- Date: Wed, 21 Feb 2024 05:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:56:28.227050
- Title: Backdoor Attacks on Dense Passage Retrievers for Disseminating
Misinformation
- Title(参考訳): 誤情報を広めるための密通路レトリバーのバックドア攻撃
- Authors: Quanyu Long, Yue Deng, LeiLei Gan, Wenya Wang, and Sinno Jialin Pan
- Abstract要約: 本稿では,攻撃者が対象の誤情報を検索システムを通じて隠蔽的に拡散することを目的とした,新たなシナリオを提案する。
そこで本研究では,高密度経路探索における文法誤差に起因したバックドア攻撃を提案する。
我々のアプローチは、攻撃されたモデルが通常のクエリに対して正常に機能することを保証しますが、攻撃者が指定したパスを返すように操作されます。
- 参考スコア(独自算出の注目度): 40.131588857153275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense retrievers and retrieval-augmented language models have been widely
used in various NLP applications. Despite being designed to deliver reliable
and secure outcomes, the vulnerability of retrievers to potential attacks
remains unclear, raising concerns about their security. In this paper, we
introduce a novel scenario where the attackers aim to covertly disseminate
targeted misinformation, such as hate speech or advertisement, through a
retrieval system. To achieve this, we propose a perilous backdoor attack
triggered by grammar errors in dense passage retrieval. Our approach ensures
that attacked models can function normally for standard queries but are
manipulated to return passages specified by the attacker when users
unintentionally make grammatical mistakes in their queries. Extensive
experiments demonstrate the effectiveness and stealthiness of our proposed
attack method. When a user query is error-free, our model consistently
retrieves accurate information while effectively filtering out misinformation
from the top-k results. However, when a query contains grammar errors, our
system shows a significantly higher success rate in fetching the targeted
content.
- Abstract(参考訳): ダンスレトリバーと検索拡張言語モデルは、様々なNLPアプリケーションで広く使われている。
信頼できるセキュアな結果を提供するように設計されているが、潜在的な攻撃に対するレトリバーの脆弱性はいまだ不明であり、セキュリティに関する懸念が高まっている。
本稿では,攻撃者が検索システムを通じてヘイトスピーチや広告といったターゲットとする誤情報を隠ぺいに広めることを目的とした,新たなシナリオを提案する。
そこで本研究では,過密通路検索において文法エラーが引き起こされる危険なバックドア攻撃を提案する。
このアプローチは、攻撃されたモデルが通常のクエリで正常に機能することを保証するが、ユーザが意図せずクエリに文法上の間違いをしたとき、攻撃者が指定したパスを返すように操作される。
広範な実験により,提案手法の有効性とステルス性が実証された。
ユーザクエリがエラーのない場合、このモデルは、トップk結果から誤情報を効果的にフィルタリングしながら、常に正確な情報を取得する。
しかし、クエリが文法エラーを含む場合、システムはターゲットとするコンテンツを取得する際に、かなり高い成功率を示します。
関連論文リスト
- Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Document Screenshot Retrievers are Vulnerable to Pixel Poisoning Attacks [72.4498910775871]
ヴィジュアル言語モデル(VLM)ベースのレトリバーは、ベクターとして埋め込まれた文書のスクリーンショットを活用して、効率的な検索を可能にし、従来のテキストのみの手法よりも単純化されたパイプラインを提供する。
本研究では,VLMをベースとしたレトリバーを危険にさらすために,3つのピクセル中毒攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T12:40:37Z) - Punctuation Matters! Stealthy Backdoor Attack for Language Models [36.91297828347229]
バックドアモデルは、テキスト上で不適切に実行しながら、クリーンなサンプルに対して正常な出力を生成する。
いくつかの攻撃方法は文法的な問題を引き起こしたり、元のテキストの意味を変更したりする。
我々は,textbfPuncAttackと呼ばれる,テキストモデルに対する新たなステルスバックドア攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T03:26:20Z) - Poisoning Retrieval Corpora by Injecting Adversarial Passages [79.14287273842878]
本稿では,悪意のあるユーザが少数の逆行を発生させるような,高密度検索システムに対する新たな攻撃を提案する。
これらの逆行路を大規模な検索コーパスに挿入すると、この攻撃はこれらのシステムを騙すのに非常に効果的であることを示す。
また、教師なしと教師なしの両方の最先端の高密度レトリバーをベンチマークし、比較する。
論文 参考訳(メタデータ) (2023-10-29T21:13:31Z) - Mitigating Backdoor Poisoning Attacks through the Lens of Spurious
Correlation [43.75579468533781]
バックドアは、特定のトリガーとターゲットラベルでトレーニングインスタンスを作成できる。
本論文は, バックドア毒殺事件は, 単純なテキスト特徴と分類ラベルとの間には明白な相関関係があることを示唆する。
実験により、悪意のあるトリガーはターゲットラベルと高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2023-05-19T11:18:20Z) - Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。
本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文 参考訳(メタデータ) (2023-05-02T06:19:36Z) - Detecting Backdoors in Deep Text Classifiers [43.36440869257781]
本稿では,テキスト分類モデルに対するバックドア攻撃を一般化する,最初の堅牢な防御機構を提案する。
我々の技術は、データ中毒や重毒など、最先端のバックドア攻撃に対する防御に極めて正確です。
論文 参考訳(メタデータ) (2022-10-11T07:48:03Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。