論文の概要: ERPO: Advancing Safety Alignment via Ex-Ante Reasoning Preference Optimization
- arxiv url: http://arxiv.org/abs/2504.02725v1
- Date: Thu, 03 Apr 2025 16:07:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 15:57:18.587616
- Title: ERPO: Advancing Safety Alignment via Ex-Ante Reasoning Preference Optimization
- Title(参考訳): ERPO:元Ante Reasoning Preference Optimizationによる安全アライメントの強化
- Authors: Kehua Feng, Keyan Ding, Jing Yu, Menghan Li, Yuhao Wang, Tong Xu, Xinda Wang, Qiang Zhang, Huajun Chen,
- Abstract要約: 元Ante Reasoning Preference Optimization (ERPO)は、大規模言語モデルのための新しい安全アライメントフレームワークである。
提案手法は,まず,教師付き微調整(SFT)による推定モデルと,直接選好最適化(DPO)による安全性,有用性,効率性の向上,および,長さ制御された反復選好最適化戦略による推論遅延の緩和の3段階からなる。
- 参考スコア(独自算出の注目度): 36.609297811592185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have accelerated progress toward artificial general intelligence, yet their potential to generate harmful content poses critical safety challenges. Existing alignment methods often struggle to cover diverse safety scenarios and remain vulnerable to adversarial attacks. In this work, we propose Ex-Ante Reasoning Preference Optimization (ERPO), a novel safety alignment framework that equips LLMs with explicit preemptive reasoning through Chain-of-Thought and provides clear evidence for safety judgments by embedding predefined safety rules. Specifically, our approach consists of three stages: first, equipping the model with Ex-Ante reasoning through supervised fine-tuning (SFT) using a constructed reasoning module; second, enhancing safety, usefulness, and efficiency via Direct Preference Optimization (DPO); and third, mitigating inference latency with a length-controlled iterative preference optimization strategy. Experiments on multiple open-source LLMs demonstrate that ERPO significantly enhances safety performance while maintaining response efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、人工知能への進歩を加速している。
既存のアライメント手法は、様々な安全シナリオをカバーするのに苦労し、敵の攻撃に弱いままである。
本研究は,従来の安全ルールを組み込んだ安全判断の明確な証拠を提供する,新たな安全アライメントフレームワークであるERPO(Ex-Ante Reasoning Preference Optimization)を提案する。
具体的には、構築された推論モジュールを用いた教師付き微調整(SFT)によるモデルと、直接優先度最適化(DPO)による安全性、有用性、効率性の向上と、長さ制御された反復選好最適化戦略による推論遅延の軽減の3段階からなる。
複数のオープンソース LLM 実験により,ERPO は応答効率を保ちながら安全性を著しく向上することが示された。
関連論文リスト
- SaRO: Enhancing LLM Safety through Reasoning-based Alignment [20.754670444745067]
大規模言語モデル(LLM)の現在の安全アライメント技術は、2つの大きな課題に直面している。
過度な調整は、良心的な指示の過剰な拒絶につながる。
本稿では,安全志向型推論をアライメントプロセスに組み込むための安全指向推論最適化フレームワーク(SaRO)を提案する。
論文 参考訳(メタデータ) (2025-04-13T03:36:06Z) - Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM Safety [31.933503076797148]
大きな言語モデル(LLM)は、従来の安全アライメントの弱点を利用するジェイルブレイク攻撃に対して脆弱である。
解釈可能なLLM安全性のための推論強化ファインタニング(Rational)を提案する。
合理的列車は、応答前に明確な安全な推論を行うようにモデル化する。
論文 参考訳(メタデータ) (2025-03-06T22:47:45Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [26.812138599896997]
本稿では,LLM生成プロセスにクエリとレスポンスの安全反射を統合する新しいトレーニングパラダイムであるReasoning-to-Defend(R2D)を提案する。
R2Dは様々な攻撃を効果的に軽減し、全体的な安全性を改善し、LLMのジェイルブレイクに対する堅牢性を強化する上での安全性を意識した推論の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z) - Survival of the Safest: Towards Secure Prompt Optimization through Interleaved Multi-Objective Evolution [1.8814321586521556]
SoS(Survival of the Safest)は、革新的な多目的プロンプト最適化フレームワークである。
これは、大きな言語モデルにおけるパフォーマンスとセキュリティの両方を同時に強化する。
SoSは、複雑な高次元の離散探索空間における最適化を高速化するスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-12T21:16:29Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Enhancing LLM Safety via Constrained Direct Preference Optimization [8.22888921018027]
我々は、最近提案されたAIシステムのためのDPO(Direct Preference Optimization)アプローチの新たな拡張であるConstrained DPO(C-DPO)を紹介する。
二重勾配降下法とDPOを併用することにより,強化学習を用いることなく,有用性と無害性との間のほぼ最適なトレードオフを同定する。
提案手法は, DPO に欠落している LLM に対して, 同じ安全性制約の下では, 極めて高い報酬を得られることを実証的に保証する。
論文 参考訳(メタデータ) (2024-03-04T20:39:24Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。