論文の概要: Round Trip Translation Defence against Large Language Model Jailbreaking
Attacks
- arxiv url: http://arxiv.org/abs/2402.13517v1
- Date: Wed, 21 Feb 2024 03:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 17:08:56.119807
- Title: Round Trip Translation Defence against Large Language Model Jailbreaking
Attacks
- Title(参考訳): 大規模言語モデルジェイルブレイク攻撃に対するラウンドトリップ翻訳防御
- Authors: Canaan Yung, Hadi Mohaghegh Dolatabadi, Sarah Erfani, Christopher
Leckie
- Abstract要約: 大規模言語モデル(LLM)に対する社会工学的攻撃に対する防御のためのラウンドトリップ翻訳(RTT)手法を提案する。
RTTは敵のプロンプトを表現し、伝達されたアイデアを一般化し、LSMが誘導された有害な行動を検出するのを容易にする。
私たちはMathsAttackを緩和し、攻撃の成功率を約40%削減した最初の試みです。
- 参考スコア(独自算出の注目度): 12.664577378692703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are susceptible to social-engineered attacks
that are human-interpretable but require a high level of comprehension for LLMs
to counteract. Existing defensive measures can only mitigate less than half of
these attacks at most. To address this issue, we propose the Round Trip
Translation (RTT) method, the first algorithm specifically designed to defend
against social-engineered attacks on LLMs. RTT paraphrases the adversarial
prompt and generalizes the idea conveyed, making it easier for LLMs to detect
induced harmful behavior. This method is versatile, lightweight, and
transferrable to different LLMs. Our defense successfully mitigated over 70% of
Prompt Automatic Iterative Refinement (PAIR) attacks, which is currently the
most effective defense to the best of our knowledge. We are also the first to
attempt mitigating the MathsAttack and reduced its attack success rate by
almost 40%. Our code is publicly available at
https://github.com/Cancanxxx/Round_Trip_Translation_Defence
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の解釈可能な社会工学的攻撃に感受性があるが、LSMが対処するためには高いレベルの理解を必要とする。
既存の防御策は、これらの攻撃の半分以下しか軽減できない。
そこで本研究では,llmに対するソーシャルエンジニアリング攻撃を防御するために設計された最初のアルゴリズムであるラウンドトリップ変換(rtt)法を提案する。
RTTは敵のプロンプトを表現し、伝達されたアイデアを一般化し、LSMが誘導された有害な行動を検出するのを容易にする。
この方法は多用途であり、軽量であり、異なるLLMに対して転送可能である。
当社の防御は、迅速な自動反復改善(pair)攻撃の70%以上を緩和することに成功しました。
また、MathsAttackを緩和し、攻撃成功率を約40%削減した最初の試みです。
私たちのコードはhttps://github.com/Cancanxxx/Round_Trip_Translation_Defenceで公開されています。
関連論文リスト
- From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked [19.242818141154086]
大規模言語モデル(LLM)は高品質なテキスト生成に人気がある。
LLMは人的価値に合わせても有害なコンテンツを生成できる。
我々は、これらの攻撃を防御するための簡単なアプローチであるLSM Self Defenseを提案する。
論文 参考訳(メタデータ) (2023-08-14T17:54:10Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。