論文の概要: Leveraging Reasoning with Guidelines to Elicit and Utilize Knowledge for Enhancing Safety Alignment
- arxiv url: http://arxiv.org/abs/2502.04040v1
- Date: Thu, 06 Feb 2025 13:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:34.624893
- Title: Leveraging Reasoning with Guidelines to Elicit and Utilize Knowledge for Enhancing Safety Alignment
- Title(参考訳): 安全アライメント向上のための知識の排除と活用のためのガイドラインによる推論の活用
- Authors: Haoyu Wang, Zeyu Qin, Li Shen, Xueqian Wang, Minhao Cheng, Dacheng Tao,
- Abstract要約: 拒絶訓練(RT)は、様々なOODジェイルブレイク攻撃に対する一般化に苦慮している。
我々は N が増加するにつれて一般化の大幅な改善を観察する。
本稿では,クエリ毎に安全推論を行うためのトレーニングモデルを提案する。
- 参考スコア(独自算出の注目度): 63.15719512614899
- License:
- Abstract: Training safe LLMs is one of the most critical research challenge. However, the commonly used method, Refusal Training (RT), struggles to generalize against various OOD jailbreaking attacks. Many safety training methods have been proposed to address this issue. While they offer valuable insights, we aim to complement this line of research by investigating whether OOD attacks truly exceed the capability of RT model. Conducting evaluation with BoN, we observe significant improvements on generalization as N increases. This underscores that the model possesses sufficient safety-related latent knowledge, but RT fails to consistently elicit this knowledge when addressing OOD attacks. Further analysis based on domain adaptation reveals that training with direct refusal causes model to rely on superficial shortcuts, resulting in learning of non-robust representation mappings. Based on our findings, we propose training model to perform safety reasoning for each query. Reasoning supervision encourages model to perform more computations, explicitly eliciting and using latent knowledge through reasoning. To achieve this, we synthesize reasoning supervision based on pre-guidelines, training the model to reason in alignment with them, thereby effectively eliciting and utilizing latent knowledge from diverse perspectives. Extensive experiments show that our method significantly improves generalization performance against OOD attacks.
- Abstract(参考訳): 安全なLLMのトレーニングは、最も重要な研究課題の1つです。
しかし、一般的な方法であるRT(Refusal Training)は、様々なOOD脱獄攻撃に対する一般化に苦慮している。
この問題に対処するために、多くの安全訓練手法が提案されている。
彼らは貴重な洞察を提供する一方で、OOD攻撃がRTモデルの能力を真に上回っているかどうかを調べることで、この研究を補完することを目指している。
また,BoNを用いて評価を行い,Nの増加とともに一般化の大幅な改善が観察された。
このことは、モデルが十分な安全性関連の潜伏知識を持っていることを裏付けるが、RTはOOD攻撃に対処する際にこの知識を一貫して引き出すことができない。
ドメイン適応に基づくさらなる分析により、直接拒否モデルによるトレーニングが表面的ショートカットに依存し、非ロマンス表現マッピングの学習をもたらすことが明らかとなった。
そこで本研究では,クエリ毎に安全推論を行うためのトレーニングモデルを提案する。
推論の監督はモデルにより多くの計算の実行を奨励し、推論を通じて潜伏した知識を明示的に引き出す。
そこで我々は,事前指導に基づいて推論の指導を合成し,モデルに協調して推論を訓練し,多様な視点から潜在知識を効果的に抽出・活用する。
大規模な実験により,OOD攻撃に対する一般化性能が著しく向上することが示された。
関連論文リスト
- Are Smarter LLMs Safer? Exploring Safety-Reasoning Trade-offs in Prompting and Fine-Tuning [40.55486479495965]
大規模言語モデル (LLM) は様々なNLPベンチマークで顕著な成功を収めている。
本研究では,LLMにおける推論と安全性の相互作用について検討する。
推論能力が向上し、これまで見過ごされていた脆弱性に光を当てることによって生じる、潜伏する安全性のリスクを強調します。
論文 参考訳(メタデータ) (2025-02-13T06:37:28Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Safe to Serve: Aligning Instruction-Tuned Models for Safety and Helpfulness [0.0]
大規模言語モデル (LLM) は複雑な推論やテキスト生成において顕著な能力を示した。
LLMは、問題のある入力を誘導すると、不安全または偏りの応答を不注意に生成することができる。
本研究は、有用なコンテンツと無害コンテンツの両方を生成する言語モデルを開発する上で、重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-26T06:52:22Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。