論文の概要: Enhancing LLM Safety via Constrained Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2403.02475v1
- Date: Mon, 4 Mar 2024 20:39:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:58:36.041668
- Title: Enhancing LLM Safety via Constrained Direct Preference Optimization
- Title(参考訳): 制約付き直接選好最適化によるLCMの安全性向上
- Authors: Zixuan Liu, Xiaolin Sun, Zizhan Zheng
- Abstract要約: 我々は、最近提案されたAIシステムのためのDPO(Direct Preference Optimization)アプローチの新たな拡張であるConstrained DPO(C-DPO)を紹介する。
二重勾配降下法とDPOを併用することにより,強化学習を用いることなく,有用性と無害性との間のほぼ最適なトレードオフを同定する。
提案手法は, DPO に欠落している LLM に対して, 同じ安全性制約の下では, 極めて高い報酬を得られることを実証的に保証する。
- 参考スコア(独自算出の注目度): 8.22888921018027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapidly increasing capabilities of large language models (LLMs) raise an
urgent need to align AI systems with diverse human preferences to
simultaneously enhance their usefulness and safety, despite the often
conflicting nature of these goals. To address this important problem, a
promising approach is to enforce a safety constraint at the fine-tuning stage
through a constrained Reinforcement Learning from Human Feedback (RLHF)
framework. This approach, however, is computationally expensive and often
unstable. In this work, we introduce Constrained DPO (C-DPO), a novel extension
of the recently proposed Direct Preference Optimization (DPO) approach for
fine-tuning LLMs that is both efficient and lightweight. By integrating dual
gradient descent and DPO, our method identifies a nearly optimal trade-off
between helpfulness and harmlessness without using reinforcement learning.
Empirically, our approach provides a safety guarantee to LLMs that is missing
in DPO while achieving significantly higher rewards under the same safety
constraint compared to a recently proposed safe RLHF approach.
Warning: This paper contains example data that may be offensive or harmful.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速に増加する能力は、しばしば相反する性質にもかかわらず、その有用性と安全性を同時に向上するために、AIシステムとさまざまな人間の好みを一致させることを緊急に要求する。
この重要な問題に対処するために、有望なアプローチは、ヒューマンフィードバック(RLHF)フレームワークによる制約付き強化学習(Reinforcement Learning from Human Feedback)を通じて、微調整段階の安全制約を実施することである。
しかし、このアプローチは計算コストが高く、しばしば不安定である。
本稿では,最近提案されたDPO(Direct Preference Optimization)アプローチの拡張であるConstrained DPO(C-DPO)を紹介する。
二重勾配降下とDPOを統合することにより,強化学習を用いることなく,有用性と無害性のほぼ最適なトレードオフを同定する。
提案手法は,最近提案された安全RLHF法と比較して,同じ安全制約下での報酬を著しく高めながら,DPOに欠けているLLMの安全性を保証する。
警告: 本論文は攻撃的あるいは有害なデータを含む。
関連論文リスト
- ICDPO: Effectively Borrowing Alignment Capability of Others via
In-context Direct Preference Optimization [24.55845271377532]
大規模な言語モデルは、安全なコンテンツの生成を保証するためにヒューマン・プライオリエンス・アライメントに依存している。
In-Context Direct Preference Optimization (ICDPO) と呼ばれる新しい手法を提案する。
ICDPOは、上記インスタントスコアラによって推定された整列応答を生成し、最終性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T17:14:34Z) - Safe RLHF: Safe Reinforcement Learning from Human Feedback [16.69413517494355]
本稿では,人的価値アライメントのための新しいアルゴリズムである,人的フィードバックからの安全強化学習(Safe RLHF)を提案する。
安全RLHFは、役に立つことと無害性に関する人間の嗜好を明示的に分離し、クラウドワーカーの緊張に対する混乱を効果的に回避する。
モデル性能を高めながら有害な応答を緩和する優れた能力を示す。
論文 参考訳(メタデータ) (2023-10-19T14:22:03Z) - Beyond Reverse KL: Generalizing Direct Preference Optimization with
Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。
RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。
DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。
Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文 参考訳(メタデータ) (2023-09-28T08:29:44Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z) - Safe Exploration in Model-based Reinforcement Learning using Control
Barrier Functions [1.005130974691351]
我々は、最小侵襲の安全管理ポリシーを開発するためにCBFの有益な特性を保持する新しいCBFのクラスを開発する。
我々は,これらのlcbfを学習ベースの制御ポリシーの強化に活用し,安全性を保証し,このアプローチを利用して安全な探索フレームワークを開発する方法を示す。
論文 参考訳(メタデータ) (2021-04-16T15:29:58Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。