論文の概要: HijackRAG: Hijacking Attacks against Retrieval-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2410.22832v1
- Date: Wed, 30 Oct 2024 09:15:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:23:30.199796
- Title: HijackRAG: Hijacking Attacks against Retrieval-Augmented Large Language Models
- Title(参考訳): HijackRAG: 検索強化された大規模言語モデルに対するハイジャック攻撃
- Authors: Yucheng Zhang, Qinfeng Li, Tianyu Du, Xuhong Zhang, Xinkui Zhao, Zhengwen Feng, Jianwei Yin,
- Abstract要約: 我々は、新しい脆弱性、検索プロンプトハイジャック攻撃(HijackRAG)を明らかにする。
HijackRAGは、悪意のあるテキストを知識データベースに注入することで、攻撃者がRAGシステムの検索機構を操作できるようにする。
攻撃者の知識の異なるレベルに合わせたブラックボックスとホワイトボックスの攻撃戦略を提案する。
- 参考スコア(独自算出の注目度): 18.301965456681764
- License:
- Abstract: Retrieval-Augmented Generation (RAG) systems enhance large language models (LLMs) by integrating external knowledge, making them adaptable and cost-effective for various applications. However, the growing reliance on these systems also introduces potential security risks. In this work, we reveal a novel vulnerability, the retrieval prompt hijack attack (HijackRAG), which enables attackers to manipulate the retrieval mechanisms of RAG systems by injecting malicious texts into the knowledge database. When the RAG system encounters target questions, it generates the attacker's pre-determined answers instead of the correct ones, undermining the integrity and trustworthiness of the system. We formalize HijackRAG as an optimization problem and propose both black-box and white-box attack strategies tailored to different levels of the attacker's knowledge. Extensive experiments on multiple benchmark datasets show that HijackRAG consistently achieves high attack success rates, outperforming existing baseline attacks. Furthermore, we demonstrate that the attack is transferable across different retriever models, underscoring the widespread risk it poses to RAG systems. Lastly, our exploration of various defense mechanisms reveals that they are insufficient to counter HijackRAG, emphasizing the urgent need for more robust security measures to protect RAG systems in real-world deployments.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、外部知識を統合することにより、大規模言語モデル(LLM)を強化し、様々なアプリケーションに適用可能で費用対効果がある。
しかし、これらのシステムへの依存度が高まると、潜在的なセキュリティリスクももたらされる。
本研究では,攻撃者が知識データベースに悪意のあるテキストを注入することで,RAGシステムの検索機構を操作できる新たな脆弱性であるヒジャック攻撃(HijackRAG)を明らかにする。
RAGシステムがターゲットの質問に遭遇すると、攻撃者が正しい質問ではなく事前に決定した回答を生成し、システムの完全性と信頼性を損なう。
最適化問題としてHijackRAGを定式化し、攻撃者の知識の異なるレベルに合わせたブラックボックスとホワイトボックスの攻撃戦略を提案する。
複数のベンチマークデータセットに対する大規模な実験は、HijackRAGが常に高い攻撃成功率を達成し、既存のベースライン攻撃を上回っていることを示している。
さらに、この攻撃は異なるレトリバーモデル間で伝達可能であることを実証し、RAGシステムに影響を及ぼす広範囲なリスクを裏付ける。
最後に, 各種防衛機構の探索により, 実環境におけるRAGシステムを保護するためのより堅牢なセキュリティ対策の必要性を強調し, ヒジャックラグに対抗するには不十分であることが判明した。
関連論文リスト
- Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks [12.061098193438022]
Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。
本稿では,RAGシステムのエンドツーエンドの間接的なプロンプト操作に対する安全性について検討する。
論文 参考訳(メタデータ) (2024-08-09T12:26:05Z) - ConfusedPilot: Confused Deputy Risks in RAG-based LLMs [2.423202571519879]
我々は、Copilotを混乱させ、応答に完全性と機密性を侵害するRAGシステムのセキュリティ脆弱性のクラスであるConfusedPilotを紹介します。
本研究は,現在のRAGベースのシステムにおけるセキュリティ脆弱性を強調し,今後のRAGベースのシステムを保護するための設計ガイドラインを提案する。
論文 参考訳(メタデータ) (2024-08-09T05:20:05Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation [0.9217021281095907]
本稿では,RAGシステムに対して,メンバーシップ推論攻撃(MIA)を行うための効率的かつ使いやすい手法を提案する。
2つのベンチマークデータセットと複数の生成モデルを用いて攻撃の有効性を示す。
本研究は,RAGシステムにおけるセキュリティ対策の実施の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-30T19:46:36Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - Rethinking the Vulnerabilities of Face Recognition Systems:From a Practical Perspective [53.24281798458074]
顔認識システム(FRS)は、監視やユーザー認証を含む重要なアプリケーションにますます統合されている。
最近の研究によると、FRSの脆弱性は敵(例えば、敵パッチ攻撃)やバックドア攻撃(例えば、データ中毒の訓練)であることが明らかになっている。
論文 参考訳(メタデータ) (2024-05-21T13:34:23Z) - FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。
本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。
本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文 参考訳(メタデータ) (2024-03-26T08:51:23Z) - PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models [45.409248316497674]
大規模言語モデル(LLM)は、その例外的な生成能力により、顕著な成功を収めた。
Retrieval-Augmented Generation (RAG)は、これらの制限を緩和するための最先端技術である。
RAGシステムにおける知識データベースは,新たな,実用的な攻撃面を導入している。
この攻撃面に基づいて,RAGに対する最初の知識汚職攻撃であるPoisonedRAGを提案する。
論文 参考訳(メタデータ) (2024-02-12T18:28:36Z) - On the Security Risks of Knowledge Graph Reasoning [71.64027889145261]
我々は、敵の目標、知識、攻撃ベクトルに応じて、KGRに対するセキュリティ脅威を体系化する。
我々は、このような脅威をインスタンス化する新しいタイプの攻撃であるROARを提示する。
ROARに対する潜在的な対策として,潜在的に有毒な知識のフィルタリングや,対向的な拡張クエリによるトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-05-03T18:47:42Z) - Challenges and Countermeasures for Adversarial Attacks on Deep
Reinforcement Learning [48.49658986576776]
深層強化学習(Dep Reinforcement Learning, DRL)は、周囲の環境に適応する優れた能力のおかげで、現実世界に多くの応用がある。
その大きな利点にもかかわらず、DRLは現実のクリティカルシステムやアプリケーションでの使用を妨げている敵攻撃の影響を受けやすい。
本稿では,DRLベースのシステムにおける新たな攻撃と,これらの攻撃を防御するための潜在的対策について述べる。
論文 参考訳(メタデータ) (2020-01-27T10:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。