論文の概要: ControlNET: A Firewall for RAG-based LLM System
- arxiv url: http://arxiv.org/abs/2504.09593v1
- Date: Sun, 13 Apr 2025 14:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:45.815893
- Title: ControlNET: A Firewall for RAG-based LLM System
- Title(参考訳): ControlNET: RAGベースのLLMシステムのためのファイアウォール
- Authors: Hongwei Yao, Haoran Shi, Yidou Chen, Yixin Jiang, Cong Wang, Zhan Qin, Kui Ren, Chun Chen,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の事実精度と領域適応性を著しく向上させた。
RAGは外部知識を統合することで幻覚を緩和するが、プライバシのリスクとセキュリティのリスク、特にデータ侵害のリスクとデータ中毒のリスクを導入する。
本稿では,これらの脆弱性からRAGベースのLLMシステムを保護するために設計された,AIファイアウォールであるControlNETを提案する。
- 参考スコア(独自算出の注目度): 18.128687740274014
- License:
- Abstract: Retrieval-Augmented Generation (RAG) has significantly enhanced the factual accuracy and domain adaptability of Large Language Models (LLMs). This advancement has enabled their widespread deployment across sensitive domains such as healthcare, finance, and enterprise applications. RAG mitigates hallucinations by integrating external knowledge, yet introduces privacy risk and security risk, notably data breaching risk and data poisoning risk. While recent studies have explored prompt injection and poisoning attacks, there remains a significant gap in comprehensive research on controlling inbound and outbound query flows to mitigate these threats. In this paper, we propose an AI firewall, ControlNET, designed to safeguard RAG-based LLM systems from these vulnerabilities. ControlNET controls query flows by leveraging activation shift phenomena to detect adversarial queries and mitigate their impact through semantic divergence. We conduct comprehensive experiments on four different benchmark datasets including Msmarco, HotpotQA, FinQA, and MedicalSys using state-of-the-art open source LLMs (Llama3, Vicuna, and Mistral). Our results demonstrate that ControlNET achieves over 0.909 AUROC in detecting and mitigating security threats while preserving system harmlessness. Overall, ControlNET offers an effective, robust, harmless defense mechanism, marking a significant advancement toward the secure deployment of RAG-based LLM systems.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は,Large Language Models (LLM) の実際の精度とドメイン適応性を著しく向上させた。
この進歩により、医療、金融、エンタープライズアプリケーションといった機密性の高いドメインにまたがる広範な展開が可能になった。
RAGは外部知識を統合することで幻覚を緩和するが、プライバシのリスクとセキュリティのリスク、特にデータ侵害のリスクとデータ中毒のリスクを導入する。
最近の研究では、迅速な注射と毒殺攻撃が検討されているが、これらの脅威を軽減するために、インバウンドとアウトバウンドのクエリフローを制御するための包括的な研究には、大きなギャップが残っている。
本稿では,これらの脆弱性からRAGベースのLLMシステムを保護するために設計された,AIファイアウォールであるControlNETを提案する。
ControlNETは、アクティベーションシフト現象を活用してクエリフローを制御する。
Msmarco, HotpotQA, FinQA, MedicalSys の4つのベンチマークデータセットに対して,最先端のオープンソース LLM (Llama3, Vicuna, Mistral) を用いた総合的な実験を行った。
この結果から,コントロールネットはセキュリティ脅威の検出・緩和において0.909 AUROC以上を達成し,無害なシステムを維持することが示唆された。
全体として、ControlNETは効果的で堅牢で無害な防御メカニズムを提供しており、RAGベースのLLMシステムの安全な配備に向けた大きな進歩を示している。
関連論文リスト
- Pirates of the RAG: Adaptively Attacking LLMs to Leak Knowledge Bases [11.101624331624933]
本稿では,RAGシステムにプライベート知識ベースを漏洩させるブラックボックス攻撃を提案する。
関連性に基づくメカニズムとアタッカーサイドのオープンソース LLM は、(隠された)知識ベースの大部分をリークする効果的なクエリの生成を好んでいる。
論文 参考訳(メタデータ) (2024-12-24T09:03:57Z) - HijackRAG: Hijacking Attacks against Retrieval-Augmented Large Language Models [18.301965456681764]
我々は、新しい脆弱性、検索プロンプトハイジャック攻撃(HijackRAG)を明らかにする。
HijackRAGは、悪意のあるテキストを知識データベースに注入することで、攻撃者がRAGシステムの検索機構を操作できるようにする。
攻撃者の知識の異なるレベルに合わせたブラックボックスとホワイトボックスの攻撃戦略を提案する。
論文 参考訳(メタデータ) (2024-10-30T09:15:51Z) - ProveRAG: Provenance-Driven Vulnerability Analysis with Automated Retrieval-Augmented LLMs [1.7191671053507043]
セキュリティアナリストは、新たに発見された脆弱性をリアルタイムで軽減するという課題に直面している。
1999年以降、30,000以上の共通脆弱性と暴露が特定されている。
2024年には25,000以上の脆弱性が特定されている。
論文 参考訳(メタデータ) (2024-10-22T20:28:57Z) - ConfusedPilot: Confused Deputy Risks in RAG-based LLMs [2.423202571519879]
我々は、Copilotを混乱させ、応答に完全性と機密性を侵害するRAGシステムのセキュリティ脆弱性のクラスであるConfusedPilotを紹介します。
本研究は,現在のRAGベースのシステムにおけるセキュリティ脆弱性を強調し,今後のRAGベースのシステムを保護するための設計ガイドラインを提案する。
論文 参考訳(メタデータ) (2024-08-09T05:20:05Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - X-CBA: Explainability Aided CatBoosted Anomal-E for Intrusion Detection System [2.556190321164248]
Intrusion Detection Systemsにおける機械学習(ML)モデルとディープラーニング(DL)モデルの使用は、不透明な意思決定による信頼の欠如につながっている。
本稿では、グラフニューラルネットワーク(GNN)の構造的利点を活用して、ネットワークトラフィックデータを効率的に処理する新しい説明可能なIDS手法であるX-CBAを提案する。
本手法は、脅威検出の99.47%で高精度に達成し、その分析結果の明確で実用的な説明を提供する。
論文 参考訳(メタデータ) (2024-02-01T18:29:16Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Vulnerability of Machine Learning Approaches Applied in IoT-based Smart Grid: A Review [51.31851488650698]
機械学習(ML)は、IoT(Internet-of-Things)ベースのスマートグリッドでの使用頻度が高まっている。
電力信号に注入された逆方向の歪みは システムの正常な制御と操作に大きな影響を及ぼす
安全クリティカルパワーシステムに適用されたMLsgAPPの脆弱性評価を行うことが不可欠である。
論文 参考訳(メタデータ) (2023-08-30T03:29:26Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。