論文の概要: Bypassing Safety Guardrails in LLMs Using Humor
- arxiv url: http://arxiv.org/abs/2504.06577v1
- Date: Wed, 09 Apr 2025 04:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:35.595900
- Title: Bypassing Safety Guardrails in LLMs Using Humor
- Title(参考訳): 風力を利用したLLMの安全ガードレールのバイパス
- Authors: Pedro Cisneros-Velarde,
- Abstract要約: 我々は,大言語モデル(LLM)の安全ガードレールをユーモラスなプロンプトで回避可能であることを示す。
我々のメソッドは安全でないリクエストを編集せず、固定されたテンプレートに従う。
- 参考スコア(独自算出の注目度): 2.8282906214258805
- License:
- Abstract: In this paper, we show it is possible to bypass the safety guardrails of large language models (LLMs) through a humorous prompt including the unsafe request. In particular, our method does not edit the unsafe request and follows a fixed template -- it is simple to implement and does not need additional LLMs to craft prompts. Extensive experiments show the effectiveness of our method across different LLMs. We also show that both removing and adding more humor to our method can reduce its effectiveness -- excessive humor possibly distracts the LLM from fulfilling its unsafe request. Thus, we argue that LLM jailbreaking occurs when there is a proper balance between focus on the unsafe request and presence of humor.
- Abstract(参考訳): 本稿では,大言語モデル(LLM)の安全ガードレールを,安全でない要求を含むユーモラスなプロンプトで回避可能であることを示す。
特に,我々の手法は,安全でない要求を編集せず,固定されたテンプレートに従っている。実装は簡単で,プロンプトを作成するための追加のLLMは不要である。大規模な実験では,異なるLLM間でのメソッドの有効性が示される。また,我々の方法にユーモアを付加することにより,その効果を減少させることができる。過度なユーモアは,LLMが安全でない要求を満たすのを妨げている可能性がある。
したがって、安全でない要求とユーモアの存在との間に適切なバランスがある場合、LLMジェイルブレイクが発生すると論じる。
関連論文リスト
- HumorReject: Decoupling LLM Safety from Refusal Prefix via A Little Humor [1.783267295706808]
大きな言語モデル(LLM)は、安全のために明示的な拒絶プレフィックスに依存している。
我々は,LLMの安全性を間接的拒絶戦略としてユーモアによる拒絶接頭辞から切り離すことによって,新たなデータ駆動型アプローチであるHumorRejectを紹介した。
論文 参考訳(メタデータ) (2025-01-23T14:02:51Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Does Safety Training of LLMs Generalize to Semantically Related Natural Prompts? [32.583583725567834]
LLM(Large Language Models)は、敵の攻撃やジェイルブレイクの影響を受けやすい言語である。
安全調整されたLLMがアライメント後の安全応答を誘発する自然的プロンプトに対して安全かどうかを評価する。
論文 参考訳(メタデータ) (2024-12-04T11:36:37Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors [90.73444232283371]
ShieldLMは、LLM(Large Language Models)の安全性検出装置で、一般的な安全基準に準拠している。
ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
論文 参考訳(メタデータ) (2024-02-26T09:43:02Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。