論文の概要: Eyes-on-Me: Scalable RAG Poisoning through Transferable Attention-Steering Attractors
- arxiv url: http://arxiv.org/abs/2510.00586v1
- Date: Wed, 01 Oct 2025 07:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.434638
- Title: Eyes-on-Me: Scalable RAG Poisoning through Transferable Attention-Steering Attractors
- Title(参考訳): Eyes-on-Me:Transferable Attention-Steering AttractorsによるスケーラブルなRAGポジショニング
- Authors: Yen-Shan Chen, Sian-Yao Huang, Cheng-Lin Yang, Yun-Nung Chen,
- Abstract要約: 検索拡張世代(RAG)システムに対する既存のデータ中毒攻撃は、ターゲットフレーズごとに有毒な文書を費用対効果で最適化する必要があるため、低スケールである。
我々は,Eyes-on-Meというモジュール型攻撃を導入し,敵の文書を再利用可能な注意喚起器と焦点領域に分解する。
我々の研究は、RAGデータ中毒のスケーラブルなパラダイムを確立し、モジュール化された再利用可能なコンポーネントが現代のAIシステムに実用的な脅威をもたらすことを示す。
- 参考スコア(独自算出の注目度): 20.868825285848196
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing data poisoning attacks on retrieval-augmented generation (RAG) systems scale poorly because they require costly optimization of poisoned documents for each target phrase. We introduce Eyes-on-Me, a modular attack that decomposes an adversarial document into reusable Attention Attractors and Focus Regions. Attractors are optimized to direct attention to the Focus Region. Attackers can then insert semantic baits for the retriever or malicious instructions for the generator, adapting to new targets at near zero cost. This is achieved by steering a small subset of attention heads that we empirically identify as strongly correlated with attack success. Across 18 end-to-end RAG settings (3 datasets $\times$ 2 retrievers $\times$ 3 generators), Eyes-on-Me raises average attack success rates from 21.9 to 57.8 (+35.9 points, 2.6$\times$ over prior work). A single optimized attractor transfers to unseen black box retrievers and generators without retraining. Our findings establish a scalable paradigm for RAG data poisoning and show that modular, reusable components pose a practical threat to modern AI systems. They also reveal a strong link between attention concentration and model outputs, informing interpretability research.
- Abstract(参考訳): 検索拡張世代(RAG)システムに対する既存のデータ中毒攻撃は、ターゲットフレーズごとに有毒な文書を費用対効果で最適化する必要があるため、低スケールである。
我々は,Eyes-on-Meというモジュール型攻撃を導入し,敵の文書を再利用可能な注意喚起器と焦点領域に分解する。
トラクターはフォーカス領域に直接注意を向けるように最適化されている。
攻撃者はその後、レトリバーのセマンティックベイトやジェネレータの悪意のある命令を挿入し、ほぼゼロのコストで新しいターゲットに適応できる。
これは、私たちが経験的に、攻撃の成功と強く相関していると認識する、小さな注意ヘッドのサブセットを操ることによって達成される。
18のエンドツーエンドRAG設定(データセット$\times$2レトリバー$\times$3ジェネレータ)で、Eyes-on-Meは21.9から57.8(+35.9ポイント、2.6$\times$以前の作業よりも平均的な攻撃成功率を上げる。
単一の最適化されたアトラクタは、再トレーニングすることなく、見えないブラックボックスレトリバーやジェネレータに転送される。
我々の研究は、RAGデータ中毒のスケーラブルなパラダイムを確立し、モジュール化された再利用可能なコンポーネントが現代のAIシステムに実用的な脅威をもたらすことを示す。
彼らはまた、注意集中とモデル出力の強い関係を明らかにし、解釈可能性の研究を報告した。
関連論文リスト
- Disabling Self-Correction in Retrieval-Augmented Generation via Stealthy Retriever Poisoning [14.419943772894754]
Retrieval-Augmented Generation (RAG)は,大規模言語モデル(LLM)の信頼性向上のための標準アプローチとなっている。
本稿では,現代のLSMの強力なテクスト自己補正能力(SCA)によって,このような攻撃を軽減できることを明らかにする。
我々は,新しい中毒パラダイムであるtextscDisarmRAG を導入し,レトリバー自体を妥協してSCAを抑止し,アタッカー・チョーゼン出力を強制する。
論文 参考訳(メタデータ) (2025-08-27T17:49:28Z) - Joint-GCG: Unified Gradient-Based Poisoning Attacks on Retrieval-Augmented Generation Systems [11.300387488829035]
Retrieval-Augmented Generation (RAG) システムは、応答を生成する前に、外部コーパスから関連文書を取得することで、Large Language Models (LLM) を強化する。
既存の毒殺攻撃戦略は、検索と生成段階を非結合として扱い、その効果を制限している。
Joint-GCGは、レトリバーモデルとジェネレータモデルの両方にわたる勾配ベースの攻撃を統合する最初のフレームワークである。
論文 参考訳(メタデータ) (2025-06-06T15:12:06Z) - Through the Stealth Lens: Rethinking Attacks and Defenses in RAG [21.420202472493425]
RevalVariRAGシステムは, 汚職率の低い場合でも, 有害な侵入に対して脆弱であることを示す。
我々は、低レートでも攻撃が信頼できるように設計されていないことを示し、検出と緩和を可能にしている。
論文 参考訳(メタデータ) (2025-06-04T19:15:09Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation [71.32665836294103]
マルチモーダル検索強化世代(RAG)は視覚言語モデル(VLM)の視覚的推論能力を向上させる
本研究では,マルチモーダルRAGシステムに対する最初の知識中毒攻撃であるtextitPoisoned-MRAGを紹介する。
論文 参考訳(メタデータ) (2025-03-08T15:46:38Z) - Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models [0.0]
Retrieval Augmented Generation (RAG)は、大規模言語モデルと最新の情報検索を組み合わせることでこの問題に対処する。
本稿では、誤報以外の有害な目的に焦点をあて、RAGに対する即時注射攻撃について検討する。
我々は,既存のコーパス中毒技術を構築し,高密度レトリバー部品の微調整を目的とした新しいバックドアアタックを提案する。
論文 参考訳(メタデータ) (2024-10-18T14:02:34Z) - Any Target Can be Offense: Adversarial Example Generation via Generalized Latent Infection [83.72430401516674]
GAKerは任意のターゲットクラスに対して逆例を構築することができる。
本手法は,未知のクラスに対する攻撃成功率を約14.13%で達成する。
論文 参考訳(メタデータ) (2024-07-17T03:24:09Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。
本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。
我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文 参考訳(メタデータ) (2020-12-02T15:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。