論文の概要: NeuroGenPoisoning: Neuron-Guided Attacks on Retrieval-Augmented Generation of LLM via Genetic Optimization of External Knowledge
- arxiv url: http://arxiv.org/abs/2510.21144v1
- Date: Fri, 24 Oct 2025 04:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.383925
- Title: NeuroGenPoisoning: Neuron-Guided Attacks on Retrieval-Augmented Generation of LLM via Genetic Optimization of External Knowledge
- Title(参考訳): NeuroGenPoisoning:知的知識の遺伝的最適化によるLLMの検索・拡張生成に対するニューロン誘導攻撃
- Authors: Hanyu Zhu, Lance Fiondella, Jiawei Yuan, Kai Zeng, Long Jiao,
- Abstract要約: 本稿では,内的ニューロン帰属と遺伝的最適化によって誘導されるRAGの対人的外部知識を生成する新たな攻撃フレームワークであるNeuroGenPoisoningを提案する。
我々のフレームワークは、有望だが当初は失敗に終わった外部知識の変種を特定し再利用することで、効果的に有毒なRAG知識の大量生成を可能にする。
- 参考スコア(独自算出の注目度): 8.455558543619462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) empowers Large Language Models (LLMs) to dynamically integrate external knowledge during inference, improving their factual accuracy and adaptability. However, adversaries can inject poisoned external knowledge to override the model's internal memory. While existing attacks iteratively manipulate retrieval content or prompt structure of RAG, they largely ignore the model's internal representation dynamics and neuron-level sensitivities. The underlying mechanism of RAG poisoning has not been fully studied and the effect of knowledge conflict with strong parametric knowledge in RAG is not considered. In this work, we propose NeuroGenPoisoning, a novel attack framework that generates adversarial external knowledge in RAG guided by LLM internal neuron attribution and genetic optimization. Our method first identifies a set of Poison-Responsive Neurons whose activation strongly correlates with contextual poisoning knowledge. We then employ a genetic algorithm to evolve adversarial passages that maximally activate these neurons. Crucially, our framework enables massive-scale generation of effective poisoned RAG knowledge by identifying and reusing promising but initially unsuccessful external knowledge variants via observed attribution signals. At the same time, Poison-Responsive Neurons guided poisoning can effectively resolves knowledge conflict. Experimental results across models and datasets demonstrate consistently achieving high Population Overwrite Success Rate (POSR) of over 90% while preserving fluency. Empirical evidence shows that our method effectively resolves knowledge conflict.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に推論中の外部知識を動的に統合し、実際の精度と適応性を向上させる。
しかし、敵は有害な外部知識を注入してモデルの内部記憶をオーバーライドすることができる。
既存の攻撃は検索内容やRAGのプロンプト構造を反復的に操作するが、モデルの内部表現力学やニューロンレベルの感度は無視する。
RAG中毒の根底にあるメカニズムは十分に研究されておらず、RAGにおける強力なパラメトリック知識との知識衝突の影響は考慮されていない。
本研究では,LLM内部ニューロンの帰属と遺伝的最適化によって誘導されるRAGの対人的外部知識を生成する新たな攻撃フレームワークであるNeuroGenPoisoningを提案する。
本手法はまず,刺激応答性ニューロンの集合を同定し,その活性化は文脈的中毒の知識と強く相関する。
次に、遺伝アルゴリズムを用いて、これらのニューロンを最大限に活性化する逆行路を進化させる。
重要なことは、我々のフレームワークは、観測された帰属信号を介して、有望だが当初は失敗に終わった外部知識の変種を特定し、再利用することで、効果的に有毒なRAG知識の大量生成を可能にする。
同時に、Poison-Responsive Neurons guided poisoningは知識紛争を効果的に解決することができる。
モデルとデータセットをまたいだ実験結果から、高いポピュレーションオーバーライト成功率(POSR)を90%以上達成し、フラレンシを保留することを示す。
実証的な証拠は、我々の方法が知識の衝突を効果的に解決していることを示している。
関連論文リスト
- One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems [28.06028279729382]
Retrieval-Augmented Generation (RAG)により強化されたLarge Language Models (LLMs) は、正確な応答を生成する際の性能改善を示す。
外部知識ベースへの依存は、潜在的なセキュリティ脆弱性をもたらす。
本稿では,RAGシステムに対するより現実的な知識中毒攻撃を明らかにし,単一の文書のみを毒殺することで攻撃を成功させる。
論文 参考訳(メタデータ) (2025-05-15T08:14:58Z) - NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models [14.630626774362606]
大型言語モデル(LLM)の安全性アライメントは、有害な内容を抑えるためにニューロンの活性化を調節する微調整機構によって達成される。
本稿では,安全性の制約を負うニューロンを同定し,修正することにより,不整合を誘導する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-29T05:49:35Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [104.50239783909063]
Retrieval Augmented Generation (RAG) を用いた多モーダル大規模言語モデルは、多モーダル質問応答のようなかなり高度なタスクを持つ。
この外部知識への依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを引き起こす。
マルチモーダルRAGにおける知識中毒を体系的に設計する最初のフレームワークであるMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models [20.605487145370752]
不完全な検索強化は避けられ、一般的であり、有害であることがわかった。
本稿では,不完全検索拡張に耐性を持つ新しいRAG手法であるAstute RAGを提案する。
GeminiとClaudeによる実験は、従来の堅牢性強化RAGアプローチと比較して、Astute RAGの優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-09T17:59:58Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - NeuroExplainer: Fine-Grained Attention Decoding to Uncover Cortical
Development Patterns of Preterm Infants [73.85768093666582]
我々はNeuroExplainerと呼ばれる説明可能な幾何学的深層ネットワークを提案する。
NeuroExplainerは、早産に伴う幼児の皮質発達パターンの解明に使用される。
論文 参考訳(メタデータ) (2023-01-01T12:48:12Z) - Improving Adversarial Transferability via Neuron Attribution-Based
Attacks [35.02147088207232]
本稿では,より正確なニューロン重要度推定を行う機能レベルアタック(NAA)を提案する。
我々は、オーバーヘッドを大幅に減らすために、ニューロンの属性の近似スキームを導出する。
実験により、最先端のベンチマークに対する我々のアプローチの優位性が確認された。
論文 参考訳(メタデータ) (2022-03-31T13:47:30Z) - ACRE: Abstract Causal REasoning Beyond Covariation [90.99059920286484]
因果誘導における現在の視覚システムの系統的評価のための抽象因果分析データセットについて紹介する。
Blicket実験における因果発見の研究の流れに触発され、独立シナリオと介入シナリオのいずれにおいても、以下の4種類の質問で視覚的推論システムに問い合わせる。
純粋なニューラルモデルは確率レベルのパフォーマンスの下で連想戦略に向かう傾向があるのに対し、ニューロシンボリックな組み合わせは後方ブロッキングの推論に苦しむ。
論文 参考訳(メタデータ) (2021-03-26T02:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。