論文の概要: SaRO: Enhancing LLM Safety through Reasoning-based Alignment
- arxiv url: http://arxiv.org/abs/2504.09420v1
- Date: Sun, 13 Apr 2025 03:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 07:30:09.257591
- Title: SaRO: Enhancing LLM Safety through Reasoning-based Alignment
- Title(参考訳): SaRO:推論に基づくアライメントによるLCMの安全性向上
- Authors: Yutao Mou, Yuxiao Luo, Shikun Zhang, Wei Ye,
- Abstract要約: 大規模言語モデル(LLM)の現在の安全アライメント技術は、2つの大きな課題に直面している。
過度な調整は、良心的な指示の過剰な拒絶につながる。
本稿では,安全志向型推論をアライメントプロセスに組み込むための安全指向推論最適化フレームワーク(SaRO)を提案する。
- 参考スコア(独自算出の注目度): 20.754670444745067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current safety alignment techniques for large language models (LLMs) face two key challenges: (1) under-generalization, which leaves models vulnerable to novel jailbreak attacks, and (2) over-alignment, which leads to the excessive refusal of benign instructions. Our preliminary investigation reveals semantic overlap between jailbreak/harmful queries and normal prompts in embedding space, suggesting that more effective safety alignment requires a deeper semantic understanding. This motivates us to incorporate safety-policy-driven reasoning into the alignment process. To this end, we propose the Safety-oriented Reasoning Optimization Framework (SaRO), which consists of two stages: (1) Reasoning-style Warmup (RW) that enables LLMs to internalize long-chain reasoning through supervised fine-tuning, and (2) Safety-oriented Reasoning Process Optimization (SRPO) that promotes safety reflection via direct preference optimization (DPO). Extensive experiments demonstrate the superiority of SaRO over traditional alignment methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の現在の安全アライメント技術は、(1)過度な一般化、(2)新しいジェイルブレイク攻撃に弱いモデルを残すこと、(2)過度な調整、という2つの大きな課題に直面している。
予備調査では、ジェイルブレイク/ハームフルクエリと埋め込み空間における通常のプロンプトのセマンティックオーバーラップが明らかとなり、より効果的な安全アライメントがより深いセマンティック理解を必要とすることが示唆された。
このことは、アライメントプロセスに安全政策による推論を組み込むことを動機付けます。
この目的のために,(1)LLMが教師付き微調整により長鎖推論を内部化できるリソン方式ワームアップ(RW)と(2)直接選好最適化(DPO)による安全リフレクションを促進する安全指向推論プロセス最適化(SRPO)の2段階からなる安全指向推論最適化フレームワーク(SaRO)を提案する。
大規模な実験は、従来のアライメント法よりもSaROの方が優れていることを示した。
関連論文リスト
- ERPO: Advancing Safety Alignment via Ex-Ante Reasoning Preference Optimization [36.609297811592185]
元Ante Reasoning Preference Optimization (ERPO)は、大規模言語モデルのための新しい安全アライメントフレームワークである。
提案手法は,まず,教師付き微調整(SFT)による推定モデルと,直接選好最適化(DPO)による安全性,有用性,効率性の向上,および,長さ制御された反復選好最適化戦略による推論遅延の緩和の3段階からなる。
論文 参考訳(メタデータ) (2025-04-03T16:07:38Z) - Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM Safety [31.933503076797148]
大きな言語モデル(LLM)は、従来の安全アライメントの弱点を利用するジェイルブレイク攻撃に対して脆弱である。
解釈可能なLLM安全性のための推論強化ファインタニング(Rational)を提案する。
合理的列車は、応答前に明確な安全な推論を行うようにモデル化する。
論文 参考訳(メタデータ) (2025-03-06T22:47:45Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。
安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。
本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。