論文の概要: CtrlRAG: Black-box Adversarial Attacks Based on Masked Language Models in Retrieval-Augmented Language Generation
- arxiv url: http://arxiv.org/abs/2503.06950v1
- Date: Mon, 10 Mar 2025 05:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:44.722579
- Title: CtrlRAG: Black-box Adversarial Attacks Based on Masked Language Models in Retrieval-Augmented Language Generation
- Title(参考訳): CtrlRAG:検索言語生成におけるマスケッド言語モデルに基づくブラックボックス逆攻撃
- Authors: Runqi Sui,
- Abstract要約: Retrieval-Augmented Generation (RAG) システムは、外部知識ベースを統合することにより、Large Language Models (LLM) を強化する。
我々は,実世界のシナリオに合わせて,ブラックボックス設定におけるRAGシステムのための新たな攻撃手法であるCtrlRAGを提案する。
実験の結果,CtrlRAGは情動操作と幻覚増幅の両目的において3つのベースライン法より優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems enhance Large Language Models (LLMs) by integrating external knowledge bases. However, this integration introduces a new security threat: adversaries can exploit the retrieval mechanism to inject malicious content into the knowledge base, thereby influencing the generated responses. Based on this attack vector, we propose CtrlRAG, a novel attack method designed for RAG system in the black-box setting, which aligns with real-world scenarios. Unlike existing attack methods, CtrlRAG introduces a perturbation mechanism using Masked Language Model (MLM) to dynamically optimize malicious content in response to changes in the retrieved context. Experimental results demonstrate that CtrlRAG outperforms three baseline methods in both Emotional Manipulation and Hallucination Amplification objectives. Furthermore, we evaluate three existing defense mechanisms, revealing their limited effectiveness against CtrlRAG and underscoring the urgent need for more robust defenses.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、外部知識ベースを統合することにより、Large Language Models (LLM) を強化する。
敵は検索メカニズムを利用して、悪意のあるコンテンツを知識ベースに注入し、それによって生成された応答に影響を与える。
この攻撃ベクトルに基づいて,実世界のシナリオに合わせて,ブラックボックス設定におけるRAGシステム用に設計された新しい攻撃手法であるCtrlRAGを提案する。
既存の攻撃方法とは異なり、CtrlRAGは、検索されたコンテキストの変化に応じて悪意のあるコンテンツを動的に最適化するために、Masked Language Model (MLM)を使用して摂動機構を導入する。
実験の結果,CtrlRAGは情動操作と幻覚増幅の両目的において3つのベースライン法より優れていた。
さらに,既存の3つの防御機構を評価し,CtrlRAGに対する効果の限界を明らかにし,より堅牢な防御の必要性を強調した。
関連論文リスト
- Hoist with His Own Petard: Inducing Guardrails to Facilitate Denial-of-Service Attacks on Retrieval-Augmented Generation of LLMs [8.09404178079053]
Retrieval-Augmented Generation (RAG)は、Large Language Models (LLM)を外部の知識ベースと統合し、新たなセキュリティリスクを導入しながら出力品質を改善する。
RAGの脆弱性に関する既存の研究は、典型的には不正な知識や悪意のあるテキストを注入する検索メカニズムの活用に重点を置いており、誤った出力を誘導している。
本稿では, LLM の安全ガードレールの脆弱性を明らかにする。LLM の安全ガードレールは保護のために設計されているが, 敵による攻撃ベクトルとして利用することもできる。この脆弱性に基づいて, 本脆弱性を生かして, ガードレールの可利用性を損なうために, リバース・オブ・サービス・アタックである MutedRAG を提案する。
論文 参考訳(メタデータ) (2025-04-30T14:18:11Z) - PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization [13.751251342738225]
大規模言語モデル(LLM)は、幅広いアプリケーションで顕著な性能を示している。
それらはまた、時代遅れの知識や幻覚への感受性のような固有の制限も示している。
近年の取り組みはRAGベースのLLMのセキュリティに重点を置いているが、既存の攻撃方法は3つの重大な課題に直面している。
本稿では,少数の有毒テキストを知識データベースに導入する新しい最適化型攻撃であるPrompt-RAGアタック(PR-アタック)を提案する。
論文 参考訳(メタデータ) (2025-04-10T13:09:50Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation [71.32665836294103]
マルチモーダル検索強化世代(RAG)は視覚言語モデル(VLM)の視覚的推論能力を向上させる
本研究では,マルチモーダルRAGシステムに対する最初の知識中毒攻撃であるtextitPoisoned-MRAGを紹介する。
論文 参考訳(メタデータ) (2025-03-08T15:46:38Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [109.53357276796655]
Retrieval Augmented Generation (RAG) を備えたマルチモーダル大言語モデル(MLLM)
RAGはクエリ関連外部知識の応答を基盤としてMLLMを強化する。
この依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを生じさせる。
本稿では,2つの攻撃戦略を持つ新しい知識中毒攻撃フレームワークMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - FlipedRAG: Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models [19.41533176888415]
Retrieval-Augmented Generation (RAG)は、知識データベースから関連する情報を動的に取得することで、幻覚とリアルタイムの制約に対処する。
本稿では,より現実的で脅迫的なシナリオとして,RAGに対する議論の的となっている論点に対する意見操作について紹介する。
本稿では、転送ベースであるFlipedRAGと呼ばれる新しいRAGブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T12:24:57Z) - HijackRAG: Hijacking Attacks against Retrieval-Augmented Large Language Models [18.301965456681764]
我々は、新しい脆弱性、検索プロンプトハイジャック攻撃(HijackRAG)を明らかにする。
HijackRAGは、悪意のあるテキストを知識データベースに注入することで、攻撃者がRAGシステムの検索機構を操作できるようにする。
攻撃者の知識の異なるレベルに合わせたブラックボックスとホワイトボックスの攻撃戦略を提案する。
論文 参考訳(メタデータ) (2024-10-30T09:15:51Z) - Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。
明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文 参考訳(メタデータ) (2024-07-22T06:04:29Z) - Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models [21.01313168005792]
我々は、意見操作のためのブラックボックス攻撃に直面した場合、検索強化生成(RAG)モデルの脆弱性を明らかにする。
このような攻撃がユーザの認知と意思決定に与える影響について検討する。
論文 参考訳(メタデータ) (2024-07-18T17:55:55Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。