論文の概要: HumorReject: Decoupling LLM Safety from Refusal Prefix via A Little Humor
- arxiv url: http://arxiv.org/abs/2501.13677v1
- Date: Thu, 23 Jan 2025 14:02:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:23.972813
- Title: HumorReject: Decoupling LLM Safety from Refusal Prefix via A Little Humor
- Title(参考訳): HumorReject:LLMの安全性を小さなHurmor経由の拒絶修正から切り離す
- Authors: Zihui Wu, Haichang Gao, Jiacheng Luo, Zhaoxiang Liu,
- Abstract要約: 大きな言語モデル(LLM)は、安全のために明示的な拒絶プレフィックスに依存しており、プレフィックスインジェクション攻撃に対して脆弱である。
本稿では, ユーモアを間接的拒絶戦略として活用することにより, LLM の安全性を再定義する新しいデータ駆動型アプローチである HumorReject を紹介する。
- 参考スコア(独自算出の注目度): 1.783267295706808
- License:
- Abstract: Large Language Models (LLMs) commonly rely on explicit refusal prefixes for safety, making them vulnerable to prefix injection attacks. We introduce HumorReject, a novel data-driven approach that fundamentally reimagines LLM safety by decoupling it from refusal prefixes through the use of humor as an indirect refusal strategy. Rather than explicitly rejecting harmful instructions, HumorReject responds with contextually appropriate humor that naturally defuses potentially dangerous requests while maintaining engaging interactions. Our approach effectively addresses the common "over-defense" issues in existing safety mechanisms, demonstrating superior robustness against various attack vectors while preserving natural and high-quality interactions on legitimate tasks. Our findings suggest that innovations at the data level are even more fundamental than the alignment algorithm itself in achieving effective LLM safety, opening new directions for developing more resilient and user-friendly AI systems.
- Abstract(参考訳): 大きな言語モデル(LLM)は、安全のために明示的な拒絶プレフィックスに依存しており、プレフィックスインジェクション攻撃に対して脆弱である。
本稿では, 間接的拒絶戦略としてユーモアを用いることにより, 拒絶接頭辞から切り離すことにより, LLMの安全性を根本的に再定義する新しいデータ駆動型アプローチであるHumorRejectを紹介する。
HumorRejectは、有害な指示を明示的に拒否するのではなく、コンテキスト的に適切なユーモアで応答する。
提案手法は既存の安全機構の共通する「過防衛」問題に効果的に対処し、各種攻撃ベクトルに対して優れた堅牢性を示しながら、正常なタスクにおける自然的かつ高品質な相互作用を保っている。
我々の研究結果は、データレベルでのイノベーションは、効率的なLCM安全性を達成する上で、アライメントアルゴリズム自体よりもさらに基本的なものであり、よりレジリエントでユーザフレンドリなAIシステムを開発するための新たな方向性を開くことを示唆している。
関連論文リスト
- Does Safety Training of LLMs Generalize to Semantically Related Natural Prompts? [32.583583725567834]
LLM(Large Language Models)は、敵の攻撃やジェイルブレイクの影響を受けやすい言語である。
安全調整されたLLMがアライメント後の安全応答を誘発する自然的プロンプトに対して安全かどうかを評価する。
論文 参考訳(メタデータ) (2024-12-04T11:36:37Z) - Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks [18.208272960774337]
LLM(Large Language Models)は、その安全性に対する幅広い懸念を引き起こしている。
近年の研究では, 微調整によりLLMの安全性の整合性を容易に除去できることが示されている。
我々は,多言語LLMにおける微調整攻撃の理解をさらに進める。
論文 参考訳(メタデータ) (2024-10-23T18:27:36Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Break the Breakout: Reinventing LM Defense Against Jailbreak Attacks
with Self-Refinement [2.854482269849925]
言語モデル(LM)は、敵の誤用に対する悪用に対して脆弱である。
安全でないLMであっても、優れた安全性を実現するフォーマッティングによる自己再定義を提案する。
また、安全性に配慮しないLMは、より便利で安全な応答を提供することで、安全に配慮したLMよりも優れていることも見てきた。
論文 参考訳(メタデータ) (2024-02-23T08:22:24Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。