論文の概要: Unsupervised Corpus Poisoning Attacks in Continuous Space for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2504.17884v1
- Date: Thu, 24 Apr 2025 18:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.552311
- Title: Unsupervised Corpus Poisoning Attacks in Continuous Space for Dense Retrieval
- Title(参考訳): 密度検索のための連続空間における無監督コーパスの攻撃
- Authors: Yongkang Li, Panagiotis Eustratiadis, Simon Lupart, Evangelos Kanoulas,
- Abstract要約: 高速かつ効果的である対人コーパス攻撃を提示する。
我々は、ホワイトボックスとブラックボックスの設定の両方による攻撃を検討します。
提案手法は, 対象文書につき2分以内で, 良好な逆例を生成できる。
- 参考スコア(独自算出の注目度): 15.141046442409953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper concerns corpus poisoning attacks in dense information retrieval, where an adversary attempts to compromise the ranking performance of a search algorithm by injecting a small number of maliciously generated documents into the corpus. Our work addresses two limitations in the current literature. First, attacks that perform adversarial gradient-based word substitution search do so in the discrete lexical space, while retrieval itself happens in the continuous embedding space. We thus propose an optimization method that operates in the embedding space directly. Specifically, we train a perturbation model with the objective of maintaining the geometric distance between the original and adversarial document embeddings, while also maximizing the token-level dissimilarity between the original and adversarial documents. Second, it is common for related work to have a strong assumption that the adversary has prior knowledge about the queries. In this paper, we focus on a more challenging variant of the problem where the adversary assumes no prior knowledge about the query distribution (hence, unsupervised). Our core contribution is an adversarial corpus attack that is fast and effective. We present comprehensive experimental results on both in- and out-of-domain datasets, focusing on two related tasks: a top-1 attack and a corpus poisoning attack. We consider attacks under both a white-box and a black-box setting. Notably, our method can generate successful adversarial examples in under two minutes per target document; four times faster compared to the fastest gradient-based word substitution methods in the literature with the same hardware. Furthermore, our adversarial generation method generates text that is more likely to occur under the distribution of natural text (low perplexity), and is therefore more difficult to detect.
- Abstract(参考訳): 本稿では,大量の悪意ある文書をコーパスに注入することにより,検索アルゴリズムのランク付け性能を損なおうとする高密度情報検索におけるコーパス中毒攻撃について検討する。
私たちの仕事は現在の文献の2つの限界に対処する。
まず、逆勾配に基づく単語置換探索を行う攻撃は、個別の語彙空間で行うが、検索自体は連続的な埋め込み空間で行われる。
そこで本研究では,埋め込み空間で直接動作する最適化手法を提案する。
具体的には,原文書と逆文書との幾何学的距離を維持する目的で摂動モデルを訓練し,原文書と逆文書のトークンレベルの相似性を最大化する。
第二に、関連する作業は、相手がクエリについて事前の知識を持っているという強い仮定を持つのが一般的である。
本稿では,クエリ分布に関する事前の知識(従って,教師なし)を敵が想定しない問題に対して,より難易度の高い変種に焦点をあてる。
私たちのコアコントリビューションは、迅速かつ効果的な対人コーパス攻撃です。
我々は、トップ1攻撃とコーパス中毒攻撃という2つの関連するタスクに焦点を当てた、ドメイン内および外部両方のデータセットに関する総合的な実験結果を示す。
我々は、ホワイトボックスとブラックボックスの設定の両方による攻撃を検討します。
特に,本手法は,同一のハードウェアを用いた文献において,最も高速な勾配に基づく単語置換法に比べて,2分以内の精度で,良好な文例を生成することができる。
さらに,本手法は,自然文の分布下で発生する可能性が低く,検出が困難であるテキストを生成する。
関連論文リスト
- Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Reproducing HotFlip for Corpus Poisoning Attacks in Dense Retrieval [14.799512604321363]
HotFlip(ホットフリップ)は、言語モデルを攻撃するための局所的な勾配に基づく単語置換手法である。
本稿では,HotFlipの効率を大幅に向上させ,文書あたり4時間から15分に短縮する。
また,(1)転送ベースのブラックボックス攻撃,(2)クエリ非依存攻撃の2つの追加タスクについて実験と分析を行った。
論文 参考訳(メタデータ) (2025-01-08T19:29:33Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Adversarial Decoding: Generating Readable Documents for Adversarial Objectives [9.200635465485067]
新しい汎用テキスト生成技術は、異なる対向目的に対して読みやすい文書を生成する。
従来の方法は容易に検出可能なジベリッシュを生成するか、あるいは埋め込み類似性を含む目的を扱うことができない。
我々は, RAG中毒, 脱獄, 防御フィルターの回避など, 異なる目的に対して, 敵復号の有効性を計測した。
論文 参考訳(メタデータ) (2024-10-03T03:06:42Z) - HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack
on Text [40.58680960214544]
テキストに対するブラックボックスのハードラベルの敵攻撃は、実用的で困難な作業である。
そこで我々は,HQA-Attack というブラックボックス・ハードラベル攻撃シナリオの下で,高品質な敵の例を生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T10:06:43Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。