論文の概要: Large Language Models Are Involuntary Truth-Tellers: Exploiting Fallacy Failure for Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2407.00869v1
- Date: Mon, 1 Jul 2024 00:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 01:17:19.398846
- Title: Large Language Models Are Involuntary Truth-Tellers: Exploiting Fallacy Failure for Jailbreak Attacks
- Title(参考訳): 大規模言語モデルは不随意の真理―脱獄攻撃の失敗を爆発させる
- Authors: Yue Zhou, Henry Peng Zou, Barbara Di Eugenio, Yang Zhang,
- Abstract要約: 言語モデルでは、誤った推論や偽りの推論を発生させることが困難であることがわかった。
本稿では、悪意のある出力に対して一致した言語モデルを引き出すジェイルブレイク攻撃法を提案する。
- 参考スコア(独自算出の注目度): 6.614364170035397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We find that language models have difficulties generating fallacious and deceptive reasoning. When asked to generate deceptive outputs, language models tend to leak honest counterparts but believe them to be false. Exploiting this deficiency, we propose a jailbreak attack method that elicits an aligned language model for malicious output. Specifically, we query the model to generate a fallacious yet deceptively real procedure for the harmful behavior. Since a fallacious procedure is generally considered fake and thus harmless by LLMs, it helps bypass the safeguard mechanism. Yet the output is factually harmful since the LLM cannot fabricate fallacious solutions but proposes truthful ones. We evaluate our approach over five safety-aligned large language models, comparing four previous jailbreak methods, and show that our approach achieves competitive performance with more harmful outputs. We believe the findings could be extended beyond model safety, such as self-verification and hallucination.
- Abstract(参考訳): 言語モデルでは、誤った推論や偽りの推論を発生させることが困難であることがわかった。
偽りのアウトプットを生成するように頼まれると、言語モデルは正直なアウトプットをリークする傾向があります。
この欠陥を突破し、悪意のある出力に対して一致した言語モデルを引き出すジェイルブレイク攻撃法を提案する。
具体的には、有害な行動に対して、誤認的ではあるが、偽りの実際の手順を生成するよう、モデルに問い合わせる。
不正な手続きは一般的に偽物と見なされるため、LSMによって害を受けないため、保護機構をバイパスするのに役立つ。
しかし、LCMは誤った解を作ることはできないが、真に正しい解を提案するため、実際の出力は有害である。
安全に整合した5つの大言語モデルに対して,従来の4つのジェイルブレイク手法を比較し,より有害な出力で競合性能を達成できることを示す。
この発見は、自己検証や幻覚など、モデル安全性を超えて拡張できると考えています。
関連論文リスト
- A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Multi-round jailbreak attack on large language models [2.540971544359496]
私たちは"ジェイルブレイク"攻撃をよりよく理解するために、マルチラウンドのジェイルブレイクアプローチを導入します。
この方法は危険なプロンプトを書き換え、有害でない一連のサブクエストに分解する。
実験の結果,ラマ2-7Bは94%の成功率を示した。
論文 参考訳(メタデータ) (2024-10-15T12:08:14Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Neural Carrier Articles [10.109063166962079]
本稿では,言語モデルモデル(LLM)の注意を移す新しいタイプのジェイルブレイク攻撃を提案する。
提案攻撃では,知識グラフとLLMを利用して,禁止クエリのトピックに類似したキャリア記事を自動的に生成する。
実験の結果,提案手法はクロード3を除いて,高い成功率の目標LLMを投獄できることがわかった。
論文 参考訳(メタデータ) (2024-08-20T20:35:04Z) - Hidden You Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Logic Chain Injection [2.235763774591544]
既存のjailbreak攻撃は言語モデル(LLM)をうまく騙すことができる
本稿では,LLMと人間(セキュリティアナリスト)の両方を欺く新しいタイプのジェイルブレイク攻撃を提案する。
論文 参考訳(メタデータ) (2024-04-07T07:42:12Z) - Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction [31.171418109420276]
安全微調整におけるバイアスの脆弱性を特定することによって,LLMのセキュリティに関する理論的基盤を開拓した。
我々は、偽装による有害な指示を隠蔽するDRAというブラックボックスジェイルブレイク法を設計する。
我々は、さまざまなオープンソースおよびクローズドソースモデルでDRAを評価し、最先端のジェイルブレイク成功率と攻撃効率を示す。
論文 参考訳(メタデータ) (2024-02-28T06:50:14Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。