Fugu-MT 論文翻訳(概要): Making LLMs Vulnerable to Prompt Injection via Poisoning Alignment

論文の概要: Making LLMs Vulnerable to Prompt Injection via Poisoning Alignment

arxiv url: http://arxiv.org/abs/2410.14827v1
Date: Fri, 18 Oct 2024 18:52:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.727708
Title: Making LLMs Vulnerable to Prompt Injection via Poisoning Alignment
Title（参考訳）: 点火アライメントによるプロンプト注入の容易化
Authors: Zedian Shao, Hongbin Liu, Jaden Mu, Neil Zhenqiang Gong,
Abstract要約: 攻撃者はLSMのアライメントプロセスに毒を盛ることで、即時注射攻撃の成功を促進できることを示す。具体的には,有毒なアライメントサンプルを戦略的に生成する手法であるPoisonedAlignを提案する。
参考スコア（独自算出の注目度）: 35.62055590612484
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In a prompt injection attack, an attacker injects a prompt into the original one, aiming to make the LLM follow the injected prompt and perform a task chosen by the attacker. Existing prompt injection attacks primarily focus on how to blend the injected prompt into the original prompt without altering the LLM itself. Our experiments show that these attacks achieve some success, but there is still significant room for improvement. In this work, we show that an attacker can boost the success of prompt injection attacks by poisoning the LLM's alignment process. Specifically, we propose PoisonedAlign, a method to strategically create poisoned alignment samples. When even a small fraction of the alignment data is poisoned using our method, the aligned LLM becomes more vulnerable to prompt injection while maintaining its foundational capabilities. The code is available at https://github.com/Sadcardation/PoisonedAlign
Abstract（参考訳）: プロンプトインジェクション攻撃では、攻撃者が元のプロンプトにプロンプトを注入し、LSMがインジェクションされたプロンプトに従い、攻撃者が選択したタスクを実行する。既存のプロンプトインジェクション攻撃は主にLSM自体を変更することなく、インジェクションされたプロンプトを元のプロンプトにブレンドする方法に焦点を当てている。実験の結果,これらの攻撃はある程度の成功を収めることができたが,改善の余地は依然として大きい。本研究では,LSMのアライメントプロセスに毒を盛ることで,攻撃者が即時注射攻撃を成功させることを示す。具体的には,有毒なアライメントサンプルを戦略的に生成する手法であるPoisonedAlignを提案する。本手法を用いてアライメントデータのごく一部を汚染すると,アライメントLDMは,その基礎的能力を保ちながら,インジェクションの迅速化に弱いものとなる。コードはhttps://github.com/Sadcardation/PoisonedAlignで入手できる。

関連論文リスト

Enhancing Jailbreak Attacks on LLMs via Persona Prompts [39.73624426612256]
Jailbreak攻撃は、有害なコンテンツを生成するよう誘導することで、大きな言語モデル(LLM)を活用することを目的としている。以前のジェイルブレイクアプローチは、主に有害な意図を直接操作することに焦点を当てており、ペルソナのプロンプトの影響に限られた注意を払っている。 LLMの安全性機構をバイパスするペルソナを自動生成する遺伝的アルゴリズムに基づく手法を提案する。
論文参考訳（メタデータ） (2025-07-28T12:03:22Z)
Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。 LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文参考訳（メタデータ） (2024-11-01T09:14:21Z)
Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文参考訳（メタデータ） (2024-10-14T17:39:31Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文参考訳（メタデータ） (2024-02-25T06:46:27Z)
The Philosopher's Stone: Trojaning Plugins of Large Language Models [22.67696768099352]
オープンソースのLarge Language Models (LLM) は、プロプライエタリなLLMに匹敵するパフォーマンスのため、最近人気を集めている。ドメイン特化タスクを効率的にこなすために、低ランクアダプタを用いて高価なアクセラレーターを使わずにオープンソースのLLMを洗練することができる。 LLMを制御するために低ランクアダプタを利用できるかどうかはまだ分かっていない。
論文参考訳（メタデータ） (2023-12-01T06:36:17Z)
Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文参考訳（メタデータ） (2023-10-19T15:12:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。