Fugu-MT 論文翻訳(概要): Backdoor Attacks on Dense Passage Retrievers for Disseminating Misinformation

論文の概要: Backdoor Attacks on Dense Passage Retrievers for Disseminating Misinformation

arxiv url: http://arxiv.org/abs/2402.13532v1
Date: Wed, 21 Feb 2024 05:03:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 16:56:28.227050
Title: Backdoor Attacks on Dense Passage Retrievers for Disseminating Misinformation
Title（参考訳）: 誤情報を広めるための密通路レトリバーのバックドア攻撃
Authors: Quanyu Long, Yue Deng, LeiLei Gan, Wenya Wang, and Sinno Jialin Pan
Abstract要約: 本稿では,攻撃者が対象の誤情報を検索システムを通じて隠蔽的に拡散することを目的とした,新たなシナリオを提案する。そこで本研究では,高密度経路探索における文法誤差に起因したバックドア攻撃を提案する。我々のアプローチは、攻撃されたモデルが通常のクエリに対して正常に機能することを保証しますが、攻撃者が指定したパスを返すように操作されます。
参考スコア（独自算出の注目度）: 40.131588857153275
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dense retrievers and retrieval-augmented language models have been widely used in various NLP applications. Despite being designed to deliver reliable and secure outcomes, the vulnerability of retrievers to potential attacks remains unclear, raising concerns about their security. In this paper, we introduce a novel scenario where the attackers aim to covertly disseminate targeted misinformation, such as hate speech or advertisement, through a retrieval system. To achieve this, we propose a perilous backdoor attack triggered by grammar errors in dense passage retrieval. Our approach ensures that attacked models can function normally for standard queries but are manipulated to return passages specified by the attacker when users unintentionally make grammatical mistakes in their queries. Extensive experiments demonstrate the effectiveness and stealthiness of our proposed attack method. When a user query is error-free, our model consistently retrieves accurate information while effectively filtering out misinformation from the top-k results. However, when a query contains grammar errors, our system shows a significantly higher success rate in fetching the targeted content.
Abstract（参考訳）: ダンスレトリバーと検索拡張言語モデルは、様々なNLPアプリケーションで広く使われている。信頼できるセキュアな結果を提供するように設計されているが、潜在的な攻撃に対するレトリバーの脆弱性はいまだ不明であり、セキュリティに関する懸念が高まっている。本稿では,攻撃者が検索システムを通じてヘイトスピーチや広告といったターゲットとする誤情報を隠ぺいに広めることを目的とした,新たなシナリオを提案する。そこで本研究では,過密通路検索において文法エラーが引き起こされる危険なバックドア攻撃を提案する。このアプローチは、攻撃されたモデルが通常のクエリで正常に機能することを保証するが、ユーザが意図せずクエリに文法上の間違いをしたとき、攻撃者が指定したパスを返すように操作される。広範な実験により,提案手法の有効性とステルス性が実証された。ユーザクエリがエラーのない場合、このモデルは、トップk結果から誤情報を効果的にフィルタリングしながら、常に正確な情報を取得する。しかし、クエリが文法エラーを含む場合、システムはターゲットとするコンテンツを取得する際に、かなり高い成功率を示します。

関連論文リスト

Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文参考訳（メタデータ） (2025-01-30T18:02:15Z)
Document Screenshot Retrievers are Vulnerable to Pixel Poisoning Attacks [72.4498910775871]
ヴィジュアル言語モデル(VLM)ベースのレトリバーは、ベクターとして埋め込まれた文書のスクリーンショットを活用して、効率的な検索を可能にし、従来のテキストのみの手法よりも単純化されたパイプラインを提供する。本研究では,VLMをベースとしたレトリバーを危険にさらすために,3つのピクセル中毒攻撃手法を提案する。
論文参考訳（メタデータ） (2025-01-28T12:40:37Z)
Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models [0.0]
Retrieval Augmented Generation (RAG)は、大規模言語モデルと最新の情報検索を組み合わせることでこの問題に対処する。本稿では、誤報以外の有害な目的に焦点をあて、RAGに対する即時注射攻撃について検討する。我々は,既存のコーパス中毒技術を構築し,高密度レトリバー部品の微調整を目的とした新しいバックドアアタックを提案する。
論文参考訳（メタデータ） (2024-10-18T14:02:34Z)
Can We Trust the Unlabeled Target Data? Towards Backdoor Attack and Defense on Model Adaptation [120.42853706967188]
本研究は, よく設計された毒物標的データによるモデル適応に対するバックドア攻撃の可能性を探る。既存の適応アルゴリズムと組み合わせたMixAdaptというプラグイン・アンド・プレイ方式を提案する。
論文参考訳（メタデータ） (2024-01-11T16:42:10Z)
Punctuation Matters! Stealthy Backdoor Attack for Language Models [36.91297828347229]
バックドアモデルは、テキスト上で不適切に実行しながら、クリーンなサンプルに対して正常な出力を生成する。いくつかの攻撃方法は文法的な問題を引き起こしたり、元のテキストの意味を変更したりする。我々は,textbfPuncAttackと呼ばれる,テキストモデルに対する新たなステルスバックドア攻撃手法を提案する。
論文参考訳（メタデータ） (2023-12-26T03:26:20Z)
Model Stealing Attack against Recommender System [85.1927483219819]
いくつかの敵攻撃は、レコメンデーターシステムに対するモデル盗難攻撃を成し遂げた。本稿では、利用可能なターゲットデータとクエリの量を制限し、対象データとセットされたアイテムを共有する補助データを活用して、モデル盗難攻撃を促進する。
論文参考訳（メタデータ） (2023-12-18T05:28:02Z)
Poisoning Retrieval Corpora by Injecting Adversarial Passages [79.14287273842878]
本稿では,悪意のあるユーザが少数の逆行を発生させるような,高密度検索システムに対する新たな攻撃を提案する。これらの逆行路を大規模な検索コーパスに挿入すると、この攻撃はこれらのシステムを騙すのに非常に効果的であることを示す。また、教師なしと教師なしの両方の最先端の高密度レトリバーをベンチマークし、比較する。
論文参考訳（メタデータ） (2023-10-29T21:13:31Z)
Large Language Models Are Better Adversaries: Exploring Generative Clean-Label Backdoor Attacks Against Text Classifiers [25.94356063000699]
バックドア攻撃は、トレーニングとテストデータに無害なトリガーを挿入することで、モデル予測を操作する。我々は、敵のトレーニング例を正しくラベル付けした、より現実的でより困難なクリーンラベル攻撃に焦点を当てる。私たちの攻撃であるLLMBkdは言語モデルを利用して、さまざまなスタイルベースのトリガをテキストに自動的に挿入します。
論文参考訳（メタデータ） (2023-10-28T06:11:07Z)
Mitigating Backdoor Poisoning Attacks through the Lens of Spurious Correlation [43.75579468533781]
バックドアは、特定のトリガーとターゲットラベルでトレーニングインスタンスを作成できる。本論文は, バックドア毒殺事件は, 単純なテキスト特徴と分類ラベルとの間には明白な相関関係があることを示唆する。実験により、悪意のあるトリガーはターゲットラベルと高い相関関係があることが判明した。
論文参考訳（メタデータ） (2023-05-19T11:18:20Z)
Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models [41.1058288041033]
本稿では,プロンプトに基づくクリーンラベルバックドア攻撃の新規かつ効率的な方法であるProAttackを提案する。本手法では, 外部からのトリガーを必要とせず, 汚染試料の正確なラベル付けを保証し, バックドア攻撃のステルス性を向上させる。
論文参考訳（メタデータ） (2023-05-02T06:19:36Z)
Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文参考訳（メタデータ） (2023-03-14T16:11:47Z)
Detecting Backdoors in Deep Text Classifiers [43.36440869257781]
本稿では,テキスト分類モデルに対するバックドア攻撃を一般化する,最初の堅牢な防御機構を提案する。我々の技術は、データ中毒や重毒など、最先端のバックドア攻撃に対する防御に極めて正確です。
論文参考訳（メタデータ） (2022-10-11T07:48:03Z)
Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文参考訳（メタデータ） (2022-03-29T04:33:06Z)
Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文参考訳（メタデータ） (2021-06-01T07:10:54Z)
Backdoor Attack against Speaker Verification [86.43395230456339]
学習データを汚染することにより,話者検証モデルに隠れたバックドアを注入できることを示す。また,既存のバックドア攻撃が話者認証攻撃に直接適用できないことも実証した。
論文参考訳（メタデータ） (2020-10-22T11:10:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。