論文の概要: Backdoor Attacks on Dense Passage Retrievers for Disseminating
Misinformation
- arxiv url: http://arxiv.org/abs/2402.13532v1
- Date: Wed, 21 Feb 2024 05:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:56:28.227050
- Title: Backdoor Attacks on Dense Passage Retrievers for Disseminating
Misinformation
- Title(参考訳): 誤情報を広めるための密通路レトリバーのバックドア攻撃
- Authors: Quanyu Long, Yue Deng, LeiLei Gan, Wenya Wang, and Sinno Jialin Pan
- Abstract要約: 本稿では,攻撃者が対象の誤情報を検索システムを通じて隠蔽的に拡散することを目的とした,新たなシナリオを提案する。
そこで本研究では,高密度経路探索における文法誤差に起因したバックドア攻撃を提案する。
我々のアプローチは、攻撃されたモデルが通常のクエリに対して正常に機能することを保証しますが、攻撃者が指定したパスを返すように操作されます。
- 参考スコア(独自算出の注目度): 40.131588857153275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense retrievers and retrieval-augmented language models have been widely
used in various NLP applications. Despite being designed to deliver reliable
and secure outcomes, the vulnerability of retrievers to potential attacks
remains unclear, raising concerns about their security. In this paper, we
introduce a novel scenario where the attackers aim to covertly disseminate
targeted misinformation, such as hate speech or advertisement, through a
retrieval system. To achieve this, we propose a perilous backdoor attack
triggered by grammar errors in dense passage retrieval. Our approach ensures
that attacked models can function normally for standard queries but are
manipulated to return passages specified by the attacker when users
unintentionally make grammatical mistakes in their queries. Extensive
experiments demonstrate the effectiveness and stealthiness of our proposed
attack method. When a user query is error-free, our model consistently
retrieves accurate information while effectively filtering out misinformation
from the top-k results. However, when a query contains grammar errors, our
system shows a significantly higher success rate in fetching the targeted
content.
- Abstract(参考訳): ダンスレトリバーと検索拡張言語モデルは、様々なNLPアプリケーションで広く使われている。
信頼できるセキュアな結果を提供するように設計されているが、潜在的な攻撃に対するレトリバーの脆弱性はいまだ不明であり、セキュリティに関する懸念が高まっている。
本稿では,攻撃者が検索システムを通じてヘイトスピーチや広告といったターゲットとする誤情報を隠ぺいに広めることを目的とした,新たなシナリオを提案する。
そこで本研究では,過密通路検索において文法エラーが引き起こされる危険なバックドア攻撃を提案する。
このアプローチは、攻撃されたモデルが通常のクエリで正常に機能することを保証するが、ユーザが意図せずクエリに文法上の間違いをしたとき、攻撃者が指定したパスを返すように操作される。
広範な実験により,提案手法の有効性とステルス性が実証された。
ユーザクエリがエラーのない場合、このモデルは、トップk結果から誤情報を効果的にフィルタリングしながら、常に正確な情報を取得する。
しかし、クエリが文法エラーを含む場合、システムはターゲットとするコンテンツを取得する際に、かなり高い成功率を示します。
関連論文リスト
- Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。
既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文 参考訳(メタデータ) (2024-01-11T16:42:10Z) - Punctuation Matters! Stealthy Backdoor Attack for Language Models [36.91297828347229]
バックドアモデルは、テキスト上で不適切に実行しながら、クリーンなサンプルに対して正常な出力を生成する。
いくつかの攻撃方法は文法的な問題を引き起こしたり、元のテキストの意味を変更したりする。
我々は,textbfPuncAttackと呼ばれる,テキストモデルに対する新たなステルスバックドア攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T03:26:20Z) - Model Stealing Attack against Recommender System [85.1927483219819]
いくつかの敵攻撃は、レコメンデーターシステムに対するモデル盗難攻撃を成し遂げた。
本稿では、利用可能なターゲットデータとクエリの量を制限し、対象データとセットされたアイテムを共有する補助データを活用して、モデル盗難攻撃を促進する。
論文 参考訳(メタデータ) (2023-12-18T05:28:02Z) - Poisoning Retrieval Corpora by Injecting Adversarial Passages [79.14287273842878]
本稿では,悪意のあるユーザが少数の逆行を発生させるような,高密度検索システムに対する新たな攻撃を提案する。
これらの逆行路を大規模な検索コーパスに挿入すると、この攻撃はこれらのシステムを騙すのに非常に効果的であることを示す。
また、教師なしと教師なしの両方の最先端の高密度レトリバーをベンチマークし、比較する。
論文 参考訳(メタデータ) (2023-10-29T21:13:31Z) - Large Language Models Are Better Adversaries: Exploring Generative
Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。
我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。
私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文 参考訳(メタデータ) (2023-10-28T06:11:07Z) - Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in
Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。
本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文 参考訳(メタデータ) (2023-05-02T06:19:36Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Detecting Backdoors in Deep Text Classifiers [43.36440869257781]
本稿では,テキスト分類モデルに対するバックドア攻撃を一般化する,最初の堅牢な防御機構を提案する。
我々の技術は、データ中毒や重毒など、最先端のバックドア攻撃に対する防御に極めて正確です。
論文 参考訳(メタデータ) (2022-10-11T07:48:03Z) - Backdoor Attack against Speaker Verification [86.43395230456339]
学習データを汚染することにより,話者検証モデルに隠れたバックドアを注入できることを示す。
また,既存のバックドア攻撃が話者認証攻撃に直接適用できないことも実証した。
論文 参考訳(メタデータ) (2020-10-22T11:10:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。