論文の概要: Think Before Refusal : Triggering Safety Reflection in LLMs to Mitigate False Refusal Behavior
- arxiv url: http://arxiv.org/abs/2503.17882v1
- Date: Sat, 22 Mar 2025 23:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:20.453329
- Title: Think Before Refusal : Triggering Safety Reflection in LLMs to Mitigate False Refusal Behavior
- Title(参考訳): 拒絶前に考える : 虚偽の拒絶行動を軽減するLLMの安全反射のトリガ
- Authors: Shengyun Si, Xinpeng Wang, Guangyao Zhai, Nassir Navab, Barbara Plank,
- Abstract要約: 本研究は, 応答発生前の安全反射の促進により, 虚偽の拒絶行動が軽減されることを実証する。
15種類の事前訓練モデルを対象としたアブレーション実験において, 安全性を考慮した微調整モデルでは, 誤検知の挙動が著しく低下することがわかった。
- 参考スコア(独自算出の注目度): 59.20260988638777
- License:
- Abstract: Recent advancements in large language models (LLMs) have demonstrated that fine-tuning and human alignment can render LLMs harmless. In practice, such "harmlessness" behavior is mainly achieved by training models to reject harmful requests, such as "Explain how to burn down my neighbor's house", where the model appropriately declines to respond. However, this approach can inadvertently result in false refusal, where models reject benign queries as well, such as "Tell me how to kill a Python process". In this work, we demonstrate that prompting safety reflection before generating a response can mitigate false refusal behavior. Building on this finding, we introduce the Think-Before-Refusal (TBR) schema and conduct safety-aware instruction fine-tuning incorporating safety reflection. In an ablation study across 15 pre-trained models, we show that models fine-tuned with safety reflection significantly reduce false refusal behavior while maintaining safety and overall performance compared to those fine-tuned without safety reflection.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、微調整と人間のアライメントがLLMを無害にすることを示した。
実際には、このような「無害」な行動は、モデルが適切に反応しない「隣人の家を燃やす方法を説明する」など、有害な要求を拒否する訓練モデルによって主に達成される。
しかし、このアプローチは必然的に偽りの拒否をもたらす可能性がある。そこではモデルが"Pythonプロセスを殺す方法を教える"など、良質なクエリを拒否する。
本研究は, 応答発生前の安全反射の促進により, 虚偽の拒絶行動が軽減されることを実証する。
この発見に基づいて、Think-Before-Refusal (TBR)スキーマを導入し、安全反射を取り入れた安全対応型インストラクションの微調整を行う。
15種類の事前訓練モデルを対象としたアブレーション実験では、安全反射のないモデルと比較して、安全反射のないモデルに比べて安全性と全体的な性能を維持しながら、偽の拒絶行動を著しく低下させることを示した。
関連論文リスト
- Chained Tuning Leads to Biased Forgetting [20.181135590652985]
下流タスクでトレーニングされたモデルは、反対の順序でトレーニングされたモデルよりもはるかに安全チューニングを忘れていることを示す。
忘れることが特定のグループの安全情報に悪影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-12-21T03:51:58Z) - Evaluating Defences against Unsafe Feedback in RLHF [26.872318173182414]
本稿では、強化学習による安全でないフィードバックからの学習について考察する。
安全に配慮したLLMは有害なテキストを生成することで、安全でない行動空間を容易に探索できることがわかった。
この脆弱性から保護するために、我々は、有害な微調整の防御を「単純」と「明示」の両方に適応させる。
論文 参考訳(メタデータ) (2024-09-19T17:10:34Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Single Character Perturbations Break LLM Alignment [20.79833694266861]
モデル入力の端に空間を付加するだけで、モデルディフェンスを壊すことが可能であることを示す。
トークン化されたトレーニングデータに単一空間が存在する状況は、モデルにトリガーされた時にリストを生成することを奨励する。
本研究は, 現行モデルアライメントの脆弱さを浮き彫りにして, より堅牢なアライメント手法の開発の重要性を推し進めるものである。
論文 参考訳(メタデータ) (2024-07-03T16:03:10Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions [79.1824160877979]
いくつかの一般的な命令調整モデルは非常に安全でないことを示す。
私たちの安全チューニングは、標準ベンチマークによって測定されたモデルの性能や有用性を著しく低下させません。
論文 参考訳(メタデータ) (2023-09-14T17:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。