論文の概要: Round Trip Translation Defence against Large Language Model Jailbreaking Attacks
- arxiv url: http://arxiv.org/abs/2402.13517v2
- Date: Wed, 30 Apr 2025 05:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-10 03:02:23.151793
- Title: Round Trip Translation Defence against Large Language Model Jailbreaking Attacks
- Title(参考訳): 大規模言語モデルジェイルブレイク攻撃に対するラウンドトリップ翻訳防御
- Authors: Canaan Yung, Hadi Mohaghegh Dolatabadi, Sarah Erfani, Christopher Leckie,
- Abstract要約: 本研究では,大規模言語モデルに対する社会工学的攻撃から守るために設計された,最初のアルゴリズムを提案する。
我々の防衛は、PAIR(Prompt Automatic Iterative Refinement)攻撃の70%以上を軽減できた。
また、MathsAttackを緩和し、攻撃成功率を約40%削減した最初の試みです。
- 参考スコア(独自算出の注目度): 11.593052831056841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are susceptible to social-engineered attacks that are human-interpretable but require a high level of comprehension for LLMs to counteract. Existing defensive measures can only mitigate less than half of these attacks at most. To address this issue, we propose the Round Trip Translation (RTT) method, the first algorithm specifically designed to defend against social-engineered attacks on LLMs. RTT paraphrases the adversarial prompt and generalizes the idea conveyed, making it easier for LLMs to detect induced harmful behavior. This method is versatile, lightweight, and transferrable to different LLMs. Our defense successfully mitigated over 70% of Prompt Automatic Iterative Refinement (PAIR) attacks, which is currently the most effective defense to the best of our knowledge. We are also the first to attempt mitigating the MathsAttack and reduced its attack success rate by almost 40%. Our code is publicly available at https://github.com/Cancanxxx/Round_Trip_Translation_Defence This version of the article has been accepted for publication, after peer review (when applicable) but is not the Version of Record and does not reflect post-acceptance improvements, or any corrections. The Version of Record is available online at: https://doi.org/10.48550/arXiv.2402.13517 Use of this Accepted Version is subject to the publisher's Accepted Manuscript terms of use https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の解釈可能な社会工学的攻撃に感受性があるが、LSMが対処するためには高いレベルの理解を必要とする。
既存の防御策は、これらの攻撃の半数以下しか軽減できない。
この問題に対処するために,LLMに対する社会工学的攻撃に対する防御を目的とした最初のアルゴリズムであるラウンドトリップ変換(RTT)手法を提案する。
RTTは敵のプロンプトを表現し、伝達されたアイデアを一般化し、LSMが誘導された有害な行動を検出するのを容易にする。
この方法は多用途であり、軽量であり、異なるLLMに対してトランスファー可能である。
私たちの防衛は、PAIR(Prompt Automatic Iterative Refinement)攻撃の70%以上を緩和しました。
また、MathsAttackを緩和し、攻撃成功率を約40%削減した最初の試みです。
私たちのコードはhttps://github.com/Cancanxxx/Round_Trip_Translation_Defenceで公開されています。
https://doi.org/10.48550/arXiv.2402.13517 この受け入れされたバージョンの使用は、出版社の https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms に該当する。
関連論文リスト
- Denial-of-Service Poisoning Attacks against Large Language Models [64.77355353440691]
LLMはDenial-of-Service(DoS)攻撃に対して脆弱で、スペルエラーや非意味的なプロンプトが[EOS]トークンを生成することなく、無限のアウトプットをトリガーする。
本研究では, LLM に対する毒素を用いた DoS 攻撃について提案し, 1 つの毒素を注入することで, 出力長の限界を破ることができることを示した。
論文 参考訳(メタデータ) (2024-10-14T17:39:31Z) - Defending LLMs against Jailbreaking Attacks via Backtranslation [61.878363293735624]
「我々は、バックトランスレーションによる脱獄攻撃からLLMを守る新しい方法を提案する。」
推測されたプロンプトは、元のプロンプトの実際の意図を明らかにする傾向にある、逆転プロンプトと呼ばれる。
我々は、我々の防衛がベースラインを大幅に上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2024-02-26T10:03:33Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked [19.242818141154086]
大規模言語モデル(LLM)は高品質なテキスト生成に人気がある。
LLMは人的価値に合わせても有害なコンテンツを生成できる。
我々は、これらの攻撃を防御するための簡単なアプローチであるLSM Self Defenseを提案する。
論文 参考訳(メタデータ) (2023-08-14T17:54:10Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。