論文の概要: PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization
- arxiv url: http://arxiv.org/abs/2504.07717v2
- Date: Thu, 17 Apr 2025 02:01:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 12:27:31.087177
- Title: PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization
- Title(参考訳): PR-Attack:2レベル最適化による大規模言語モデルにおける検索拡張生成における協調的Prompt-RAG攻撃
- Authors: Yang Jiao, Xiaodong Wang, Kai Yang,
- Abstract要約: 大規模言語モデル(LLM)は、幅広いアプリケーションで顕著な性能を示している。
それらはまた、時代遅れの知識や幻覚への感受性のような固有の制限も示している。
近年の取り組みはRAGベースのLLMのセキュリティに重点を置いているが、既存の攻撃方法は3つの重大な課題に直面している。
本稿では,少数の有毒テキストを知識データベースに導入する新しい最適化型攻撃であるPrompt-RAGアタック(PR-アタック)を提案する。
- 参考スコア(独自算出の注目度): 13.751251342738225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across a wide range of applications, e.g., medical question-answering, mathematical sciences, and code generation. However, they also exhibit inherent limitations, such as outdated knowledge and susceptibility to hallucinations. Retrieval-Augmented Generation (RAG) has emerged as a promising paradigm to address these issues, but it also introduces new vulnerabilities. Recent efforts have focused on the security of RAG-based LLMs, yet existing attack methods face three critical challenges: (1) their effectiveness declines sharply when only a limited number of poisoned texts can be injected into the knowledge database, (2) they lack sufficient stealth, as the attacks are often detectable by anomaly detection systems, which compromises their effectiveness, and (3) they rely on heuristic approaches to generate poisoned texts, lacking formal optimization frameworks and theoretic guarantees, which limits their effectiveness and applicability. To address these issues, we propose coordinated Prompt-RAG attack (PR-attack), a novel optimization-driven attack that introduces a small number of poisoned texts into the knowledge database while embedding a backdoor trigger within the prompt. When activated, the trigger causes the LLM to generate pre-designed responses to targeted queries, while maintaining normal behavior in other contexts. This ensures both high effectiveness and stealth. We formulate the attack generation process as a bilevel optimization problem leveraging a principled optimization framework to develop optimal poisoned texts and triggers. Extensive experiments across diverse LLMs and datasets demonstrate the effectiveness of PR-Attack, achieving a high attack success rate even with a limited number of poisoned texts and significantly improved stealth compared to existing methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医学的質問応答、数理科学、コード生成など、幅広い応用において顕著な性能を示している。
しかし、それらはまた、時代遅れの知識や幻覚への感受性など、固有の限界も示している。
Retrieval-Augmented Generation (RAG)はこれらの問題に対処するための有望なパラダイムとして登場したが、新たな脆弱性も導入している。
近年、RAGベースのLSMの安全性に重点を置いているが、既存の攻撃手法では、(1)限られた数の有毒テキストしか知識データベースに注入できない場合、その効果は急激に低下し、(2)攻撃が異常検出システムによって検出され、その効果が損なわれやすいこと、(3)公式な最適化フレームワークや理論上の保証が欠如していること、の3つの重大な課題に直面している。
これらの問題に対処するため、我々は、プロンプト・RAG攻撃(PR-アタック)を提案する。これは、プロンプト内にバックドアトリガを埋め込みながら、少数の有毒テキストを知識データベースに導入する、新しい最適化駆動攻撃である。
アクティベートされると、トリガーはLLMにターゲットクエリに対する事前設計された応答を生成し、他のコンテキストでの正常な動作を維持する。
これにより、高い有効性とステルスの両方が保証される。
攻撃生成プロセスは, 最適な有害テキストやトリガーを開発するために, 基本最適化フレームワークを活用する二段階最適化問題として定式化する。
多様なLDMやデータセットにわたる大規模な実験はPR-Attackの有効性を示し、有毒テキストの数が限られていても高い攻撃成功率を達成し、既存の方法と比較してステルスを著しく改善した。
関連論文リスト
- Hoist with His Own Petard: Inducing Guardrails to Facilitate Denial-of-Service Attacks on Retrieval-Augmented Generation of LLMs [8.09404178079053]
Retrieval-Augmented Generation (RAG)は、Large Language Models (LLM)を外部の知識ベースと統合し、新たなセキュリティリスクを導入しながら出力品質を改善する。
RAGの脆弱性に関する既存の研究は、典型的には不正な知識や悪意のあるテキストを注入する検索メカニズムの活用に重点を置いており、誤った出力を誘導している。
本稿では, LLM の安全ガードレールの脆弱性を明らかにする。LLM の安全ガードレールは保護のために設計されているが, 敵による攻撃ベクトルとして利用することもできる。この脆弱性に基づいて, 本脆弱性を生かして, ガードレールの可利用性を損なうために, リバース・オブ・サービス・アタックである MutedRAG を提案する。
論文 参考訳(メタデータ) (2025-04-30T14:18:11Z) - BadApex: Backdoor Attack Based on Adaptive Optimization Mechanism of Black-box Large Language Models [23.612489763464353]
従来の挿入方式のバックドアは攻撃効果に大きな成功を収めたが、毒性のあるテキストとクリーンなテキスト間のテキスト品質とセマンティック一貫性は無視されている。
ブラックボックス大言語モデル(BadApex)の適応最適化機構に基づく新しいバックドア攻撃を提案する。
6つのバックドアアタックと2つのディフェンスによる3つのデータセットに対する広範な実験を行った。
論文 参考訳(メタデータ) (2025-04-18T16:22:41Z) - Practical Poisoning Attacks against Retrieval-Augmented Generation [9.320227105592917]
大規模言語モデル(LLM)は、印象的な自然言語処理能力を示しているが、幻覚や時代遅れの知識といった課題に直面している。
Retrieval-Augmented Generation (RAG)は、これらの問題を緩和するための最先端のアプローチとして登場した。
我々は、攻撃者が1つの有毒テキストだけを注入するRAGシステムに対する実用的な中毒攻撃であるCorruptRAGを提案する。
論文 参考訳(メタデータ) (2025-04-04T21:49:42Z) - Align in Depth: Defending Jailbreak Attacks via Progressive Answer Detoxification [17.500701903902094]
大規模言語モデル(LLM)は、有害な応答を誘発するクラフトプロンプトを使用するジェイルブレイク攻撃に対して脆弱である。
本稿では,LLMを微調整して生成したコンテンツを段階的に解毒する,堅牢な防衛フレームワークであるDEEPALIGNを提案する。
論文 参考訳(メタデータ) (2025-03-14T08:32:12Z) - Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation [71.32665836294103]
マルチモーダル検索強化世代(RAG)は視覚言語モデル(VLM)の視覚的推論能力を向上させる
本研究では,マルチモーダルRAGシステムに対する最初の知識中毒攻撃であるtextitPoisoned-MRAGを紹介する。
論文 参考訳(メタデータ) (2025-03-08T15:46:38Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [109.53357276796655]
Retrieval Augmented Generation (RAG) を備えたマルチモーダル大言語モデル(MLLM)
RAGはクエリ関連外部知識の応答を基盤としてMLLMを強化する。
この依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを生じさせる。
本稿では,2つの攻撃戦略を持つ新しい知識中毒攻撃フレームワークMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Turning Generative Models Degenerate: The Power of Data Poisoning Attacks [10.36389246679405]
悪意のある俳優は、毒殺攻撃を通じてバックドアを導入し、望ましくないアウトプットを発生させることができる。
本研究では,大規模言語モデルの微調整段階を標的とした多種多様な中毒技術について,PEFT(Efficient Fine-Tuning)法を用いて検討する。
本研究は,PEFTによる微調整中にNLGタスクを標的とした毒殺攻撃を理解するための最初の体系的アプローチである。
論文 参考訳(メタデータ) (2024-07-17T03:02:15Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models [45.409248316497674]
大規模言語モデル(LLM)は、その例外的な生成能力により、顕著な成功を収めた。
Retrieval-Augmented Generation (RAG)は、これらの制限を緩和するための最先端技術である。
RAGシステムにおける知識データベースは,新たな,実用的な攻撃面を導入している。
この攻撃面に基づいて,RAGに対する最初の知識汚職攻撃であるPoisonedRAGを提案する。
論文 参考訳(メタデータ) (2024-02-12T18:28:36Z) - A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models [0.0]
本研究では,アプリケーションのレジリエンスを定量化する新しいフレームワークを提案する。
このフレームワークには、代表性、解釈可能性、堅牢性を保証するために設計された革新的な技術が含まれている。
その結果, 新しいモデルであるLlama2はChatGLMよりも高いレジリエンスを示した。
論文 参考訳(メタデータ) (2024-01-02T02:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。