Fugu-MT 論文翻訳(概要): Phantom: General Trigger Attacks on Retrieval Augmented Language Generation

論文の概要: Phantom: General Trigger Attacks on Retrieval Augmented Language Generation

arxiv url: http://arxiv.org/abs/2405.20485v2
Date: Tue, 15 Oct 2024 15:56:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.074385
Title: Phantom: General Trigger Attacks on Retrieval Augmented Language Generation
Title（参考訳）: Phantom: 検索言語生成に対する一般的なトリガー攻撃
Authors: Harsh Chaudhari, Giorgio Severi, John Abascal, Matthew Jagielski, Christopher A. Choquette-Choo, Milad Nasr, Cristina Nita-Rotaru, Alina Oprea,
Abstract要約: Retrieval Augmented Generation (RAG)は、現代の大規模言語モデル(LLM)の機能を拡張する本稿では,RAGシステムの知識ベースに悪意ある文書を1つだけ注入し,バックドア中毒攻撃を行う新たな攻撃ベクトルを提案する。我々はGemma、Vicuna、Llamaを含む複数のLLMアーキテクチャに対する攻撃を実演し、GPT-3.5 TurboおよびGPT-4への移行を示す。
参考スコア（独自算出の注目度）: 30.63258739968483
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval Augmented Generation (RAG) expands the capabilities of modern large language models (LLMs), by anchoring, adapting, and personalizing their responses to the most relevant knowledge sources. It is particularly useful in chatbot applications, allowing developers to customize LLM output without expensive retraining. Despite their significant utility in various applications, RAG systems present new security risks. In this work, we propose new attack vectors that allow an adversary to inject a single malicious document into a RAG system's knowledge base, and mount a backdoor poisoning attack. We design Phantom, a general two-stage optimization framework against RAG systems, that crafts a malicious poisoned document leading to an integrity violation in the model's output. First, the document is constructed to be retrieved only when a specific trigger sequence of tokens appears in the victim's queries. Second, the document is further optimized with crafted adversarial text that induces various adversarial objectives on the LLM output, including refusal to answer, reputation damage, privacy violations, and harmful behaviors. We demonstrate our attacks on multiple LLM architectures, including Gemma, Vicuna, and Llama, and show that they transfer to GPT-3.5 Turbo and GPT-4. Finally, we successfully conducted a Phantom attack on NVIDIA's black-box production RAG system, "Chat with RTX".
Abstract（参考訳）: Retrieval Augmented Generation (RAG)は、最新の大規模言語モデル(LLM)の機能を拡張し、最も関連する知識ソースへの応答をアンカーし、適応し、パーソナライズする。チャットボットアプリケーションでは特に有用で、開発者は高価な再トレーニングなしにLCM出力をカスタマイズできる。様々なアプリケーションで大きなメリットがあるにもかかわらず、RAGシステムは新たなセキュリティリスクを提示している。本研究では,RAGシステムの知識ベースに悪意ある文書を1つだけ注入し,バックドア中毒攻撃を行う新たな攻撃ベクトルを提案する。我々は、RAGシステムに対する一般的な2段階最適化フレームワークであるPhantomを設計し、悪意のある有毒なドキュメントを作成し、モデル出力の整合性に違反する。まず、被害者のクエリに特定のトークンのトリガーシーケンスが現れる場合にのみ、ドキュメントを検索するように構築する。第2に、この文書は、LLM出力に対する様々な敵の目的を誘導する、創作された敵のテキストにより、さらに最適化されている。我々はGemma、Vicuna、Llamaを含む複数のLLMアーキテクチャに対する攻撃を実演し、GPT-3.5 TurboおよびGPT-4への移行を示す。最後に,NVIDIAのブラックボックス生産RAGシステムである"Chat with RTX"に対するPhantom攻撃を成功させた。

関連論文リスト

Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors [15.861833242429228]
本稿では,RAGの知識データベースを対象としたデータ抽出攻撃について検討する。従来のインジェクションベース抽出攻撃はLLMの命令追従能力に大きく依存していた。筆者らは, LLM内のバックドアを作成するために, 微調整期間中に少量の有毒データを注入するバックドアRAGを提案する。
論文参考訳（メタデータ） (2024-11-03T22:27:40Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
MEGen: Generative Backdoor in Large Language Models via Model Editing [56.46183024683885]
大規模言語モデル(LLM)は目覚ましい能力を示している。その強力な生成能力は、様々なクエリや命令に基づいて柔軟な応答を可能にする。本稿では,最小サイドエフェクトでNLPタスクをカスタマイズしたバックドアを構築することを目的とした,MEGenという編集ベースの生成バックドアを提案する。
論文参考訳（メタデータ） (2024-08-20T10:44:29Z)
Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks [12.061098193438022]
Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。本稿では,RAGシステムのエンドツーエンドの間接的なプロンプト操作に対する安全性について検討する。
論文参考訳（メタデータ） (2024-08-09T12:26:05Z)
h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment [48.5611060845958]
我々は,静的なデータセットや攻撃や被害を克服するために,構成可能なジェイルブレイク攻撃の新たなベンチマークを提案する。我々は、h4rm3lを使用して、6つの最先端(SOTA)オープンソースおよびプロプライエタリなLLMをターゲットにした2656の新たなジェイルブレイク攻撃のデータセットを生成する。合成攻撃のいくつかは、以前報告した攻撃よりも効果的であり、SOTAクローズド言語モデルでは、アタック成功率は90%以上である。
論文参考訳（メタデータ） (2024-08-09T01:45:39Z)
Machine Against the RAG: Jamming Retrieval-Augmented Generation with Blocker Documents [17.95339197094059]
Retrieval-augmented Generation (RAG)システムは、関連する文書を知識データベースから検索し、検索した文書にLSMを適用して回答を生成する。我々は、信頼できないコンテンツを持つデータベースで運用するRAGシステムが、私たちがジャミングと呼ぶ新しいタイプのサービス拒否攻撃に弱いことを実証した。
論文参考訳（メタデータ） (2024-06-09T17:55:55Z)
TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models [16.71019302192829]
大規模言語モデル(LLM)は、自然言語処理(NLP)において顕著なパフォーマンスにもかかわらず、潜在的なセキュリティ脅威に対する懸念を提起している。バックドア攻撃は当初、LLMがあらゆる段階で重大な損害を受けていることを証明したが、コストとロバスト性は批判されている。本稿では,Retrieval-Augmented Generationにおいて,共同でバックドア攻撃を行うTrojanRAGを提案する。
論文参考訳（メタデータ） (2024-05-22T07:21:32Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
Instruction Backdoor Attacks Against Customized LLMs [37.92008159382539]
我々は、信頼できないカスタマイズ LLM と統合されたアプリケーションに対して、最初の命令バックドアアタックを提案する。私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。本稿では,2つの防衛戦略を提案し,その効果を実証する。
論文参考訳（メタデータ） (2024-02-14T13:47:35Z)
PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models [45.409248316497674]
大規模言語モデル(LLM)は、その例外的な生成能力により、顕著な成功を収めた。 Retrieval-Augmented Generation (RAG)は、これらの制限を緩和するための最先端技術である。 RAGシステムにおける知識データベースは,新たな,実用的な攻撃面を導入している。この攻撃面に基づいて,RAGに対する最初の知識汚職攻撃であるPoisonedRAGを提案する。
論文参考訳（メタデータ） (2024-02-12T18:28:36Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
Universal and Transferable Adversarial Attacks on Aligned Language Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文参考訳（メタデータ） (2023-07-27T17:49:12Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。