論文の概要: SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety
- arxiv url: http://arxiv.org/abs/2505.20065v1
- Date: Mon, 26 May 2025 14:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.525823
- Title: SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety
- Title(参考訳): SafeDPO: 安全性を向上した直接参照最適化への簡単なアプローチ
- Authors: Geon-Hyeong Kim, Youngsoo Jang, Yu Jin Kim, Byoungjip Kim, Honglak Lee, Kyunghoon Bae, Moontae Lee,
- Abstract要約: 我々は,政策学習の単一段階において,安全アライメント目標を直接最適化するSafeDPOという新しいアルゴリズムを導入する。
その結果、個別の報酬モデルとコストモデル、あるいは微調整中に言語モデルからサンプルを採取する必要がなくなる。
SafeDPOは,最先端の安全アライメントアルゴリズムと比較して,競争性能が向上することを示す。
- 参考スコア(独自算出の注目度): 57.14003339251827
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As Large Language Models (LLMs) continue to advance and find applications across a growing number of fields, ensuring the safety of LLMs has become increasingly critical. To address safety concerns, recent studies have proposed integrating safety constraints into Reinforcement Learning from Human Feedback (RLHF). However, these approaches tend to be complex, as they encompass complicated procedures in RLHF along with additional steps required by the safety constraints. Inspired by Direct Preference Optimization (DPO), we introduce a new algorithm called SafeDPO, which is designed to directly optimize the safety alignment objective in a single stage of policy learning, without requiring relaxation. SafeDPO introduces only one additional hyperparameter to further enhance safety and requires only minor modifications to standard DPO. As a result, it eliminates the need to fit separate reward and cost models or to sample from the language model during fine-tuning, while still enhancing the safety of LLMs. Finally, we demonstrate that SafeDPO achieves competitive performance compared to state-of-the-art safety alignment algorithms, both in terms of aligning with human preferences and improving safety.
- Abstract(参考訳): 大規模言語モデル(LLM)が進歩し続け、多くの分野にまたがるアプリケーションを見つけるにつれ、LLMの安全性がますます重要になっている。
安全上の問題に対処するため、近年の研究では、ヒューマンフィードバックからの強化学習(RLHF)に安全制約を統合することを提案する。
しかしながら、これらのアプローチは、安全制約によって必要となる追加ステップとともに、RLHFの複雑な手順を含むため、複雑である傾向にある。
DPO(Direct Preference Optimization)にヒントを得たSafeDPOと呼ばれる新しいアルゴリズムを導入し、緩和を必要とせず、単一段階のポリシー学習において、安全アライメントの目的を直接最適化する。
SafeDPOは安全性をさらに高めるために1つのハイパーパラメータのみを導入し、標準のDPOに小さな変更しか必要としない。
結果として、LLMの安全性を保ちながら、報酬モデルとコストモデルが分離されたり、微調整中に言語モデルからサンプルを採取する必要がなくなる。
最後に、SafeDPOは、人間の嗜好の整合性や安全性の向上の両面で、最先端の安全アライメントアルゴリズムと比較して、競争性能が向上することを示した。
関連論文リスト
- Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Towards NSFW-Free Text-to-Image Generation via Safety-Constraint Direct Preference Optimization [30.31991120463517]
既存の研究は、潜在的に有害な概念の下で完全な安全性を保証することができず、また、生成品質と安全性のバランスをとるのに苦労している。
本稿では,T2Iモデルにおける安全性アライメントのための新しいフレームワークである,SC-DPO(Safety-Constrained Direct Preference Optimization)を提案する。
SC-DPOは、ヒトが好むサンプルを生成する可能性の最大化を目的として、安全性の制約を一般的なヒトの選好校正に統合する。
論文 参考訳(メタデータ) (2025-04-19T13:26:46Z) - Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization [16.35399722653875]
我々は,大規模言語モデル(LLM)における有用性と安全性(無害性)のバランスをとるために,RePO(Rectified Policy Optimization)を提案する。
RePOの中核は、修正されたポリシー勾配によって駆動されるポリシー更新メカニズムであり、すべてのプロンプトの厳格な安全違反を罰し、ほぼすべてのプロンプトの安全性を高める。
論文 参考訳(メタデータ) (2024-10-25T19:08:23Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - Enhancing LLM Safety via Constrained Direct Preference Optimization [8.22888921018027]
我々は、最近提案されたAIシステムのためのDPO(Direct Preference Optimization)アプローチの新たな拡張であるConstrained DPO(C-DPO)を紹介する。
二重勾配降下法とDPOを併用することにより,強化学習を用いることなく,有用性と無害性との間のほぼ最適なトレードオフを同定する。
提案手法は, DPO に欠落している LLM に対して, 同じ安全性制約の下では, 極めて高い報酬を得られることを実証的に保証する。
論文 参考訳(メタデータ) (2024-03-04T20:39:24Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。