論文の概要: LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked
- arxiv url: http://arxiv.org/abs/2308.07308v3
- Date: Tue, 24 Oct 2023 03:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 23:54:51.290222
- Title: LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked
- Title(参考訳): llm自己防衛:自己検査によって、llmは彼らが騙されていることを知っている
- Authors: Mansi Phute, Alec Helbling, Matthew Hull, ShengYun Peng, Sebastian
Szyller, Cory Cornelius and Duen Horng Chau
- Abstract要約: 大規模言語モデル(LLM)は高品質なテキスト生成に人気があるが、有害なコンテンツを生成できる。
LLM自己防衛(LSM Self Defense, LLM Self Defense)は, LLMスクリーンに応答を誘導することでこれらの攻撃を防御する簡単な手法である。
GPT 3.5 と Llama 2 で LLM Self Defense をテストする。
- 参考スコア(独自算出の注目度): 20.207763124093017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are popular for high-quality text generation but
can produce harmful content, even when aligned with human values through
reinforcement learning. Adversarial prompts can bypass their safety measures.
We propose LLM Self Defense, a simple approach to defend against these attacks
by having an LLM screen the induced responses. Our method does not require any
fine-tuning, input preprocessing, or iterative output generation. Instead, we
incorporate the generated content into a pre-defined prompt and employ another
instance of an LLM to analyze the text and predict whether it is harmful. We
test LLM Self Defense on GPT 3.5 and Llama 2, two of the current most prominent
LLMs against various types of attacks, such as forcefully inducing affirmative
responses to prompts and prompt engineering attacks. Notably, LLM Self Defense
succeeds in reducing the attack success rate to virtually 0 using both GPT 3.5
and Llama 2.
- Abstract(参考訳): 大規模言語モデル(LLM)は高品質なテキスト生成に人気があるが、強化学習を通じて人的価値に合わせる場合でも有害なコンテンツを生成できる。
敵のプロンプトは安全対策を回避できる。
LLM自己防衛(LSM Self Defense, LLM Self Defense)は, LLMスクリーンに応答を誘導することでこれらの攻撃を防御する簡単な手法である。
本手法では,微調整や入力前処理,反復的な出力生成は不要である。
代わりに、生成されたコンテンツを事前定義されたプロンプトに組み込んで、llmの別のインスタンスを使用してテキストを分析し、それが有害かどうかを予測します。
我々は, GPT 3.5 と Llama 2 の LLM Self Defense を, GPT 3.5 と Llama 2 の2つの主要な LLM の様々な攻撃に対して試験する。
特に、LDM Self Defense は GPT 3.5 と Llama 2 を用いて攻撃成功率を事実上 0 に下げることに成功した。
関連論文リスト
- Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。
本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文 参考訳(メタデータ) (2024-10-14T17:39:31Z) - Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - MaPPing Your Model: Assessing the Impact of Adversarial Attacks on LLM-based Programming Assistants [14.947665219536708]
本稿では,攻撃者がプログラムタスクのプロンプトに少量のテキストを付加するMalicious Programming Prompt(MaPP)攻撃を紹介する。
我々の迅速な戦略は、LSMが他の方法で正しいコードを書き続けながら脆弱性を追加する可能性があることを示しています。
論文 参考訳(メタデータ) (2024-07-12T22:30:35Z) - Defending LLMs against Jailbreaking Attacks via Backtranslation [61.878363293735624]
「我々は、バックトランスレーションによる脱獄攻撃からLLMを守る新しい方法を提案する。」
推測されたプロンプトは、元のプロンプトの実際の意図を明らかにする傾向にある、逆転プロンプトと呼ばれる。
我々は、我々の防衛がベースラインを大幅に上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2024-02-26T10:03:33Z) - Round Trip Translation Defence against Large Language Model Jailbreaking
Attacks [12.664577378692703]
大規模言語モデル(LLM)に対する社会工学的攻撃に対する防御のためのラウンドトリップ翻訳(RTT)手法を提案する。
RTTは敵のプロンプトを表現し、伝達されたアイデアを一般化し、LSMが誘導された有害な行動を検出するのを容易にする。
私たちはMathsAttackを緩和し、攻撃の成功率を約40%削減した最初の試みです。
論文 参考訳(メタデータ) (2024-02-21T03:59:52Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Goal-Oriented Prompt Attack and Safety Evaluation for LLMs [43.93613764464993]
高品質なプロンプト攻撃サンプルを構築するパイプラインと、CPADと呼ばれる中国のプロンプト攻撃データセットを導入する。
我々のプロンプトは、慎重に設計されたいくつかのプロンプトアタックテンプレートで、予期せぬ出力を生成するためにLSMを誘導することを目的としている。
GPT-3.5に対する攻撃成功率は70%程度であった。
論文 参考訳(メタデータ) (2023-09-21T07:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。