論文の概要: Foot In The Door: Understanding Large Language Model Jailbreaking via
Cognitive Psychology
- arxiv url: http://arxiv.org/abs/2402.15690v1
- Date: Sat, 24 Feb 2024 02:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:32:34.396437
- Title: Foot In The Door: Understanding Large Language Model Jailbreaking via
Cognitive Psychology
- Title(参考訳): foot in the door: 認知心理学による大規模言語モデル脱獄の理解
- Authors: Zhenhua Wang, Wei Xie, Baosheng Wang, Enze Wang, Zhiwen Gui,
Shuoyoucheng Ma, Kai Chen
- Abstract要約: 本研究では,大規模言語モデル(LLM)の内在的意思決定論理に関する心理学的視点を構築する。
フットイン・ザ・ドア(FITD)技術に基づく自動ブラックボックスジェイルブレイク手法を提案する。
- 参考スコア(独自算出の注目度): 12.584928288798658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have gradually become the gateway for people to
acquire new knowledge. However, attackers can break the model's security
protection ("jail") to access restricted information, which is called
"jailbreaking." Previous studies have shown the weakness of current LLMs when
confronted with such jailbreaking attacks. Nevertheless, comprehension of the
intrinsic decision-making mechanism within the LLMs upon receipt of jailbreak
prompts is noticeably lacking. Our research provides a psychological
explanation of the jailbreak prompts. Drawing on cognitive consistency theory,
we argue that the key to jailbreak is guiding the LLM to achieve cognitive
coordination in an erroneous direction. Further, we propose an automatic
black-box jailbreaking method based on the Foot-in-the-Door (FITD) technique.
This method progressively induces the model to answer harmful questions via
multi-step incremental prompts. We instantiated a prototype system to evaluate
the jailbreaking effectiveness on 8 advanced LLMs, yielding an average success
rate of 83.9%. This study builds a psychological perspective on the explanatory
insights into the intrinsic decision-making logic of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人々が新たな知識を得るためのゲートウェイになりつつある。
しかし、攻撃者は制限された情報にアクセスするためにモデルのセキュリティ保護("jail")を破ることができ、これは"jailbreaking"と呼ばれる。
これまでの研究では、脱獄攻撃に直面すると現在のllmの弱点が示されている。
それにもかかわらず、ジェイルブレイクプロンプトの受信によるLSM内の本質的な意思決定機構の理解は著しく欠如している。
本研究は脱獄プロンプトの心理的な説明を提供する。
認知整合性理論に基づいて, ジェイルブレイクの鍵は, LLMを誤った方向への認知協調を達成するよう導くことであると論じる。
さらに,フットイン・ザ・ドア(FITD)技術に基づく自動ブラックボックスジェイルブレイク手法を提案する。
この方法は、多段階のインクリメンタルなプロンプトを通じて有害な質問に答えるモデルを段階的に誘導する。
8種類の先進LDMにおける脱獄効果を評価するためのプロトタイプシステムを試作し, 平均成功率83.9%を得た。
本研究は, LLMの内在的意思決定論理に関する説明的洞察を心理学的に捉えたものである。
関連論文リスト
- Tastle: Distract Large Language Models for Automatic Jailbreak Attack [9.137714258654842]
大規模言語モデル(LLM)の自動レッドチーム化のためのブラックボックスジェイルブレイクフレームワークを提案する。
我々のフレームワークは、有効性、スケーラビリティ、転送性において優れている。
また,攻撃に対する既存のジェイルブレイク防御手法の有効性についても検討した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by
Exploring Refusal Loss Landscapes [69.5883095262619]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak [26.741029482196534]
大規模言語モデル(LLM)が悪意ある指示に直面すると有害な応答を発生させる現象である。
本稿では,LDMのポテンシャルを増幅することでセキュリティ機構をバイパスし,肯定応答を生成する新しい自動ジェイルブレイク手法RADIALを提案する。
提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において,堅牢な攻撃性能を維持する。
論文 参考訳(メタデータ) (2023-12-07T08:29:58Z) - Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文 参考訳(メタデータ) (2023-11-16T11:52:22Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。