論文の概要: HumorReject: Decoupling LLM Safety from Refusal Prefix via A Little Humor
- arxiv url: http://arxiv.org/abs/2501.13677v1
- Date: Thu, 23 Jan 2025 14:02:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:23.972813
- Title: HumorReject: Decoupling LLM Safety from Refusal Prefix via A Little Humor
- Title(参考訳): HumorReject:LLMの安全性を小さなHurmor経由の拒絶修正から切り離す
- Authors: Zihui Wu, Haichang Gao, Jiacheng Luo, Zhaoxiang Liu,
- Abstract要約: 大きな言語モデル(LLM)は、安全のために明示的な拒絶プレフィックスに依存しており、プレフィックスインジェクション攻撃に対して脆弱である。
本稿では, ユーモアを間接的拒絶戦略として活用することにより, LLM の安全性を再定義する新しいデータ駆動型アプローチである HumorReject を紹介する。
- 参考スコア(独自算出の注目度): 1.783267295706808
- License:
- Abstract: Large Language Models (LLMs) commonly rely on explicit refusal prefixes for safety, making them vulnerable to prefix injection attacks. We introduce HumorReject, a novel data-driven approach that fundamentally reimagines LLM safety by decoupling it from refusal prefixes through the use of humor as an indirect refusal strategy. Rather than explicitly rejecting harmful instructions, HumorReject responds with contextually appropriate humor that naturally defuses potentially dangerous requests while maintaining engaging interactions. Our approach effectively addresses the common "over-defense" issues in existing safety mechanisms, demonstrating superior robustness against various attack vectors while preserving natural and high-quality interactions on legitimate tasks. Our findings suggest that innovations at the data level are even more fundamental than the alignment algorithm itself in achieving effective LLM safety, opening new directions for developing more resilient and user-friendly AI systems.
- Abstract(参考訳): 大きな言語モデル(LLM)は、安全のために明示的な拒絶プレフィックスに依存しており、プレフィックスインジェクション攻撃に対して脆弱である。
本稿では, 間接的拒絶戦略としてユーモアを用いることにより, 拒絶接頭辞から切り離すことにより, LLMの安全性を根本的に再定義する新しいデータ駆動型アプローチであるHumorRejectを紹介する。
HumorRejectは、有害な指示を明示的に拒否するのではなく、コンテキスト的に適切なユーモアで応答する。
提案手法は既存の安全機構の共通する「過防衛」問題に効果的に対処し、各種攻撃ベクトルに対して優れた堅牢性を示しながら、正常なタスクにおける自然的かつ高品質な相互作用を保っている。
我々の研究結果は、データレベルでのイノベーションは、効率的なLCM安全性を達成する上で、アライメントアルゴリズム自体よりもさらに基本的なものであり、よりレジリエントでユーザフレンドリなAIシステムを開発するための新たな方向性を開くことを示唆している。
関連論文リスト
- SPIN: Self-Supervised Prompt INjection [16.253558670549697]
敵の攻撃と脱獄攻撃は 安全アライメントを回避し モデルに有害な反応をもたらすよう提案されている
自己監督型プロンプト注入(SPIN)を導入し,LSMに対するこれらの様々な攻撃を検出し,逆転させることができる。
本システムでは,攻撃成功率を87.9%まで削減し,ユーザ要求の良質な性能を維持しながら,攻撃成功率を最大で87.9%削減する。
論文 参考訳(メタデータ) (2024-10-17T05:40:54Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Protecting Your LLMs with Information Bottleneck [20.870610473199125]
本稿では,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を紹介する。
IBProtectorは、軽量で訓練可能な抽出器によって促進されるプロンプトを選択的に圧縮し、摂動する。
IBProtectorはジェイルブレイク対策において,現在の防御方法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-22T08:16:07Z) - Break the Breakout: Reinventing LM Defense Against Jailbreak Attacks
with Self-Refinement [2.854482269849925]
言語モデル(LM)は、敵の誤用に対する悪用に対して脆弱である。
安全でないLMであっても、優れた安全性を実現するフォーマッティングによる自己再定義を提案する。
また、安全性に配慮しないLMは、より便利で安全な応答を提供することで、安全に配慮したLMよりも優れていることも見てきた。
論文 参考訳(メタデータ) (2024-02-23T08:22:24Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks [55.603893267803265]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。