論文の概要: PoisonArena: Uncovering Competing Poisoning Attacks in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2505.12574v2
- Date: Wed, 21 May 2025 10:51:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.329406
- Title: PoisonArena: Uncovering Competing Poisoning Attacks in Retrieval-Augmented Generation
- Title(参考訳): PoisonArena:Retrieval-Augmented Generationsの競合するPhoisoning攻撃を発見
- Authors: Liuji Chen, Xiaofang Yang, Yuanzhuo Lu, Jinghao Zhang, Xin Sun, Qiang Liu, Shu Wu, Jing Dong, Liang Wang,
- Abstract要約: Retrieval-Augmented Generation (RAG) システムは、ますます毒性攻撃に弱い。
我々は、RAGにおける競合する毒殺攻撃を系統的に研究し、評価する最初のベンチマークであるPoisonArenaを紹介する。
- 参考スコア(独自算出の注目度): 21.366060613044066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems, widely used to improve the factual grounding of large language models (LLMs), are increasingly vulnerable to poisoning attacks, where adversaries inject manipulated content into the retriever's corpus. While prior research has predominantly focused on single-attacker settings, real-world scenarios often involve multiple, competing attackers with conflicting objectives. In this work, we introduce PoisonArena, the first benchmark to systematically study and evaluate competing poisoning attacks in RAG. We formalize the multi-attacker threat model, where attackers vie to control the answer to the same query using mutually exclusive misinformation. PoisonArena leverages the Bradley-Terry model to quantify each method's competitive effectiveness in such adversarial environments. Through extensive experiments on the Natural Questions and MS MARCO datasets, we demonstrate that many attack strategies successful in isolation fail under competitive pressure. Our findings highlight the limitations of conventional evaluation metrics like Attack Success Rate (ASR) and F1 score and underscore the need for competitive evaluation to assess real-world attack robustness. PoisonArena provides a standardized framework to benchmark and develop future attack and defense strategies under more realistic, multi-adversary conditions. Project page: https://github.com/yxf203/PoisonArena.
- Abstract(参考訳): 大規模言語モデル (LLM) の現実的基盤を改善するために広く用いられている検索・拡張生成システム (RAG) は、敵が操作されたコンテンツを検索者のコーパスに注入する中毒攻撃に対して、ますます脆弱である。
以前の研究では、主にシングルアタックの設定に焦点が当てられていたが、現実のシナリオでは、対立する目標を持つ複数の競合する攻撃者が関与することが多い。
本研究では,RAGにおける競合する毒殺攻撃を系統的に研究し,評価する最初のベンチマークであるPoisonArenaを紹介する。
我々は,攻撃者が相互排他的誤情報を用いて同一クエリに対する応答を制御するマルチアタック脅威モデルを定式化する。
PoisonArenaはBradley-Terryモデルを利用して、このような敵対的な環境で各手法の競争効率を定量化する。
本研究では,Natural QuestionsとMS MARCOデータセットの広範な実験を通じて,分離に成功した攻撃戦略の多くが競合圧力下で失敗することを示した。
本研究は,攻撃成功率(ASR)やF1スコアなどの従来の評価指標の限界を強調し,実世界の攻撃堅牢性を評価するための競争的評価の必要性を強調した。
PoisonArenaは、より現実的でマルチアドバイザリーな条件下で、将来の攻撃と防御戦略をベンチマークし、開発するための標準化されたフレームワークを提供する。
プロジェクトページ: https://github.com/yxf203/PoisonArena
関連論文リスト
- SoK: Benchmarking Poisoning Attacks and Defenses in Federated Learning [21.73177249075515]
フェデレートラーニング(FL)は、データのプライバシを維持しながら協調的なモデルトレーニングを可能にするが、その分散された性質は、それをクライアント側データ中毒攻撃(DPA)とモデル中毒攻撃(MPAs)に公開する。
本稿では、DPAとMPAに対する防御を統一したベンチマークと分析し、これら2つの類似しているがわずかに異なるドメインの区別を明らかにすることを目的とする。
論文 参考訳(メタデータ) (2025-02-06T06:05:00Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Preference Poisoning Attacks on Reward Model Learning [47.00395978031771]
ペア比較による報酬モデル学習における脆弱性の性質と範囲について検討する。
本稿では,これらの攻撃に対するアルゴリズム的アプローチのクラスとして,勾配に基づくフレームワークと,ランク・バイ・ディスタンス手法のいくつかのバリエーションを提案する。
最高の攻撃は多くの場合、非常に成功しており、最も極端な場合、100%の成功率を達成することができ、データのわずか0.3%が毒殺されている。
論文 参考訳(メタデータ) (2024-02-02T21:45:24Z) - AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models [29.92550386563915]
ジェイルブレイク攻撃は、大規模言語モデル(LLM)のセキュリティに対する最も洗練された脅威の1つである。
LLMに対するジェイルブレイク攻撃の有効性を評価するための,革新的なフレームワークを提案する。
粗粒度評価と細粒度評価の2つの異なる評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-17T06:42:44Z) - Interpretability is a Kind of Safety: An Interpreter-based Ensemble for
Adversary Defense [28.398901783858005]
我々は,強固な防御敵に対するX-Ensembleと呼ばれるインタプリタベースのアンサンブルフレームワークを提案する。
X-エンサンブルはランダムフォレスト(RF)モデルを用いて、準検出器をアンサンブル検出器に結合し、敵のハイブリッド攻撃防御を行う。
論文 参考訳(メタデータ) (2023-04-14T04:32:06Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - Rethinking Textual Adversarial Defense for Pre-trained Language Models [79.18455635071817]
文献レビューでは、事前訓練された言語モデル(PrLM)が敵の攻撃に弱いことが示されている。
本稿では、現在の敵攻撃アプローチにより、より自然で知覚不能な敵の例を生成するための新しい指標(異常の度合い)を提案する。
我々は,我々のユニバーサル・ディフェンス・フレームワークが,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック・ディフェンスの精度を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T07:51:45Z) - Adversarial Robustness of Deep Reinforcement Learning based Dynamic
Recommender Systems [50.758281304737444]
本稿では,強化学習に基づく対話型レコメンデーションシステムにおける敵例の探索と攻撃検出を提案する。
まず、入力に摂動を加え、カジュアルな要因に介入することで、異なる種類の逆例を作成する。
そこで,本研究では,人工データに基づく深層学習に基づく分類器による潜在的攻撃を検出することにより,推薦システムを強化した。
論文 参考訳(メタデータ) (2021-12-02T04:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。