論文の概要: Safety Reasoning with Guidelines
- arxiv url: http://arxiv.org/abs/2502.04040v2
- Date: Fri, 30 May 2025 09:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:33.837426
- Title: Safety Reasoning with Guidelines
- Title(参考訳): ガイドラインによる安全推論
- Authors: Haoyu Wang, Zeyu Qin, Li Shen, Xueqian Wang, Dacheng Tao, Minhao Cheng,
- Abstract要約: RT(Refusal Training)は、様々なアウト・オブ・ディストリビューション(OOD)のジェイルブレイク攻撃に対する一般化に苦慮している。
本稿では,クエリ毎に安全推論を行うためのトレーニングモデルを提案する。
- 参考スコア(独自算出の注目度): 63.15719512614899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training safe LLMs remains a critical challenge. The most widely used method, Refusal Training (RT), struggles to generalize against various Out-of-Distribution (OOD) jailbreaking attacks. Although various advanced methods have been proposed to address this issue, we instead question whether OOD attacks inherently surpass the capability of vanilla RT. Evaluations using Best-of-N (BoN) reveal significant safety improvements as N increases, indicating models possess adequate latent safety knowledge but RT fails to consistently elicit it under OOD scenarios. Further domain adaptation analysis reveals that direct RT causes reliance on superficial shortcuts, resulting in non-generalizable representation mappings. Inspired by our findings, we propose training model to perform safety reasoning for each query. Specifically, we synthesize reasoning supervision aligned with specified guidelines that reflect diverse perspectives on safety knowledge. This encourages model to engage in deeper reasoning, explicitly eliciting and utilizing latent safety knowledge for each query. Extensive experiments show that our method significantly improves model generalization against OOD attacks.
- Abstract(参考訳): 安全なLLMの訓練は依然として重要な課題である。
最も広く使われている方法であるRefusal Training (RT)は、様々なアウト・オブ・ディストリビューション(OOD)のジェイルブレイク攻撃に対する一般化に苦慮している。
この問題に対処するために様々な高度な手法が提案されているが、OOD攻撃が本質的にバニラRTの能力を超えているかどうかを疑問視する。
Best-of-N (BoN) を用いた評価では、Nが増加するにつれて安全性が大幅に向上し、モデルが十分な潜伏安全性の知識を持っていることを示しているが、RTはOODシナリオの下で継続的にそれを引き出すことができない。
さらなる領域適応解析により、直接RTは表面的ショートカットに依存し、一般化不可能な表現マッピングをもたらすことが明らかになった。
そこで本研究では,クエリ毎に安全推論を行うためのトレーニングモデルを提案する。
具体的には、安全知識の多様な視点を反映した特定ガイドラインに沿った推論監督を合成する。
これにより、モデルはより深い推論、明示的な推論、クエリ毎の潜伏した安全性知識の活用に従事します。
大規模な実験により,OOD攻撃に対するモデル一般化が大幅に改善された。
関連論文リスト
- Are Smarter LLMs Safer? Exploring Safety-Reasoning Trade-offs in Prompting and Fine-Tuning [40.55486479495965]
大規模言語モデル (LLM) は様々なNLPベンチマークで顕著な成功を収めている。
本研究では,LLMにおける推論と安全性の相互作用について検討する。
推論能力が向上し、これまで見過ごされていた脆弱性に光を当てることによって生じる、潜伏する安全性のリスクを強調します。
論文 参考訳(メタデータ) (2025-02-13T06:37:28Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Safe to Serve: Aligning Instruction-Tuned Models for Safety and Helpfulness [0.0]
大規模言語モデル (LLM) は複雑な推論やテキスト生成において顕著な能力を示した。
LLMは、問題のある入力を誘導すると、不安全または偏りの応答を不注意に生成することができる。
本研究は、有用なコンテンツと無害コンテンツの両方を生成する言語モデルを開発する上で、重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-26T06:52:22Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Robust Deep Reinforcement Learning Through Adversarial Attacks and Training : A Survey [8.1138182541639]
Deep Reinforcement Learning (DRL)は、複雑な環境を横断してシーケンシャルなアクションをとる自律エージェントを訓練するための機械学習のサブフィールドである。
微妙な条件の変化の影響を受けながらも、現実のアプリケーションにおける信頼性への懸念を高めている。
DRLのロバスト性向上手法として, 環境条件の未知の変化と摂動の可能性について考察する。
論文 参考訳(メタデータ) (2024-03-01T10:16:46Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。