論文の概要: Reproducing HotFlip for Corpus Poisoning Attacks in Dense Retrieval
- arxiv url: http://arxiv.org/abs/2501.04802v1
- Date: Wed, 08 Jan 2025 19:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:59:54.830608
- Title: Reproducing HotFlip for Corpus Poisoning Attacks in Dense Retrieval
- Title(参考訳): 密集地におけるコーパス中毒対策のためのホットフリップの再生
- Authors: Yongkang Li, Panagiotis Eustratiadis, Evangelos Kanoulas,
- Abstract要約: HotFlip(ホットフリップ)は、言語モデルを攻撃するための局所的な勾配に基づく単語置換手法である。
本稿では,HotFlipの効率を大幅に向上させ,文書あたり4時間から15分に短縮する。
また,(1)転送ベースのブラックボックス攻撃,(2)クエリ非依存攻撃の2つの追加タスクについて実験と分析を行った。
- 参考スコア(独自算出の注目度): 14.799512604321363
- License:
- Abstract: HotFlip is a topical gradient-based word substitution method for attacking language models. Recently, this method has been further applied to attack retrieval systems by generating malicious passages that are injected into a corpus, i.e., corpus poisoning. However, HotFlip is known to be computationally inefficient, with the majority of time being spent on gradient accumulation for each query-passage pair during the adversarial token generation phase, making it impossible to generate an adequate number of adversarial passages in a reasonable amount of time. Moreover, the attack method itself assumes access to a set of user queries, a strong assumption that does not correspond to how real-world adversarial attacks are usually performed. In this paper, we first significantly boost the efficiency of HotFlip, reducing the adversarial generation process from 4 hours per document to only 15 minutes, using the same hardware. We further contribute experiments and analysis on two additional tasks: (1) transfer-based black-box attacks, and (2) query-agnostic attacks. Whenever possible, we provide comparisons between the original method and our improved version. Our experiments demonstrate that HotFlip can effectively attack a variety of dense retrievers, with an observed trend that its attack performance diminishes against more advanced and recent methods. Interestingly, we observe that while HotFlip performs poorly in a black-box setting, indicating limited capacity for generalization, in query-agnostic scenarios its performance is correlated to the volume of injected adversarial passages.
- Abstract(参考訳): HotFlip(ホットフリップ)は、言語モデルを攻撃するための局所的な勾配に基づく単語置換手法である。
近年,この手法は,コーパスに注入された悪意ある経路,すなわちコーパス中毒を発生させることによって,検索システムへの攻撃にさらに応用されている。
しかし、HotFlipは計算的に非効率であることが知られており、ほとんどの時間は、逆トークン生成フェーズにおける各クエリパスペアの勾配蓄積に費やされているため、適切な時間内に適切な数の逆パスを生成することは不可能である。
さらに,攻撃手法自体がユーザクエリの集合へのアクセスを前提としている。
本稿では,HotFlipの効率を大幅に向上させ,同一のハードウェアを用いて1文書あたり4時間から15分に短縮する。
さらに,(1)転送ベースのブラックボックス攻撃,(2)クエリ非依存攻撃の2つのタスクについて実験と分析を行った。
可能であれば、元のメソッドと改善されたバージョンの比較を提供する。
実験により,HotFlipは多種多様な高密度レトリバーを効果的に攻撃できることを示した。
興味深いことに、HotFlipはブラックボックス環境では性能が悪く、一般化の能力が限られているのに対して、クエリ非依存のシナリオでは、その性能はインジェクションされた逆行の体積と相関している。
関連論文リスト
- Corpus Poisoning via Approximate Greedy Gradient Descent [48.5847914481222]
本稿では,HotFlip法をベースとした高密度検索システムに対する新たな攻撃手法として,近似グレディ・グラディエント・Descentを提案する。
提案手法は,複数のデータセットと複数のレトリバーを用いて高い攻撃成功率を達成し,未知のクエリや新しいドメインに一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T17:02:35Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Whispers in Grammars: Injecting Covert Backdoors to Compromise Dense Retrieval Systems [40.131588857153275]
本稿では,攻撃者が検索システムを誤認して攻撃者の特定内容を検索する新たな攻撃シナリオについて検討する。
これらのコンテンツは、攻撃者によって検索コーパスに注入され、ヘイトスピーチやスパムのような有害なテキストを含むことができる。
モデル重みに頼り、顕著で不自然な出力を生成する従来の手法とは異なり、文法エラーによって引き起こされる隠れたバックドア攻撃を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:03:07Z) - FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning
Attacks in Federated Learning [98.43475653490219]
フェデレート・ラーニング(Federated Learning, FL)は、毒素による攻撃を受けやすい。
FreqFedは、モデルの更新を周波数領域に変換する新しいアグリゲーションメカニズムである。
FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを実証した。
論文 参考訳(メタデータ) (2023-12-07T16:56:24Z) - DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial
Purification [63.65630243675792]
拡散に基づく浄化防御は拡散モデルを利用して、敵の例の人工摂動を除去する。
近年の研究では、先進的な攻撃でさえ、そのような防御を効果的に破壊できないことが示されている。
拡散型浄化防衛を効果的かつ効率的に行うための統合フレームワークDiffAttackを提案する。
論文 参考訳(メタデータ) (2023-10-27T15:17:50Z) - You Can Backdoor Personalized Federated Learning [18.91908598410108]
既存の研究は主に、一般的な連合学習シナリオにおけるバックドア攻撃と防御に焦点を当てている。
本稿では,2つの単純かつ効果的な戦略からなる2段階の攻撃手法であるBapFLを提案する。
論文 参考訳(メタデータ) (2023-07-29T12:25:04Z) - Detection and Mitigation of Byzantine Attacks in Distributed Training [24.951227624475443]
ワーカノードの異常なビザンチン挙動は、トレーニングを脱線させ、推論の品質を損なう可能性がある。
最近の研究は、幅広い攻撃モデルを検討し、歪んだ勾配を補正するために頑健な集約と/または計算冗長性を探究している。
本研究では、強力な攻撃モデルについて検討する:$q$ omniscient adversaries with full knowledge of the defense protocol that can change from iteration to iteration to weak one: $q$ randomly selected adversaries with limited collusion abilities。
論文 参考訳(メタデータ) (2022-08-17T05:49:52Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Improving the Transferability of Adversarial Examples with New Iteration
Framework and Input Dropout [8.24029748310858]
本稿では,反復ステップサイズ,摂動数,最大イテレーションの関係を再定義する,新たな勾配反復フレームワークを提案する。
本枠組みでは,DI-TI-MIMの攻撃成功率を容易に向上させる。
さらに,入力ドロップアウトに基づく勾配反復攻撃手法を提案する。
論文 参考訳(メタデータ) (2021-06-03T06:36:38Z) - Transferable Sparse Adversarial Attack [62.134905824604104]
オーバーフィッティング問題を緩和するジェネレータアーキテクチャを導入し、転送可能なスパース対逆例を効率的に作成する。
提案手法は,他の最適化手法よりも700$times$高速な推論速度を実現する。
論文 参考訳(メタデータ) (2021-05-31T06:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。