Fugu-MT 論文翻訳(概要): Enhancing LLM Safety via Constrained Direct Preference Optimization

論文の概要: Enhancing LLM Safety via Constrained Direct Preference Optimization

arxiv url: http://arxiv.org/abs/2403.02475v1
Date: Mon, 4 Mar 2024 20:39:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 16:58:36.041668
Title: Enhancing LLM Safety via Constrained Direct Preference Optimization
Title（参考訳）: 制約付き直接選好最適化によるLCMの安全性向上
Authors: Zixuan Liu, Xiaolin Sun, Zizhan Zheng
Abstract要約: 我々は、最近提案されたAIシステムのためのDPO(Direct Preference Optimization)アプローチの新たな拡張であるConstrained DPO(C-DPO)を紹介する。二重勾配降下法とDPOを併用することにより,強化学習を用いることなく,有用性と無害性との間のほぼ最適なトレードオフを同定する。提案手法は, DPO に欠落している LLM に対して, 同じ安全性制約の下では, 極めて高い報酬を得られることを実証的に保証する。
参考スコア（独自算出の注目度）: 8.22888921018027
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapidly increasing capabilities of large language models (LLMs) raise an urgent need to align AI systems with diverse human preferences to simultaneously enhance their usefulness and safety, despite the often conflicting nature of these goals. To address this important problem, a promising approach is to enforce a safety constraint at the fine-tuning stage through a constrained Reinforcement Learning from Human Feedback (RLHF) framework. This approach, however, is computationally expensive and often unstable. In this work, we introduce Constrained DPO (C-DPO), a novel extension of the recently proposed Direct Preference Optimization (DPO) approach for fine-tuning LLMs that is both efficient and lightweight. By integrating dual gradient descent and DPO, our method identifies a nearly optimal trade-off between helpfulness and harmlessness without using reinforcement learning. Empirically, our approach provides a safety guarantee to LLMs that is missing in DPO while achieving significantly higher rewards under the same safety constraint compared to a recently proposed safe RLHF approach. Warning: This paper contains example data that may be offensive or harmful.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速に増加する能力は、しばしば相反する性質にもかかわらず、その有用性と安全性を同時に向上するために、AIシステムとさまざまな人間の好みを一致させることを緊急に要求する。この重要な問題に対処するために、有望なアプローチは、ヒューマンフィードバック(RLHF)フレームワークによる制約付き強化学習(Reinforcement Learning from Human Feedback)を通じて、微調整段階の安全制約を実施することである。しかし、このアプローチは計算コストが高く、しばしば不安定である。本稿では,最近提案されたDPO(Direct Preference Optimization)アプローチの拡張であるConstrained DPO(C-DPO)を紹介する。二重勾配降下とDPOを統合することにより,強化学習を用いることなく,有用性と無害性のほぼ最適なトレードオフを同定する。提案手法は,最近提案された安全RLHF法と比較して,同じ安全制約下での報酬を著しく高めながら,DPOに欠けているLLMの安全性を保証する。警告: 本論文は攻撃的あるいは有害なデータを含む。

関連論文リスト

MidPO: Dual Preference Optimization for Safety and Helpfulness in Large Language Models via a Mixture of Experts Framework [20.141606392837478]
そこで本稿では,安全性向上のためのテキストバウンサーラインMixture of Experts(MoE)フレームワークであるMidPOを提案する。提案したMidPOは安全性と有用性の両方において最先端のアプローチを大幅に上回っていることを示すために,3つの一般的なデータセットについて定量的,定性的な実験を行った。
論文参考訳（メタデータ） (2025-06-03T05:23:09Z)
SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety [57.14003339251827]
我々は,政策学習の単一段階において,安全アライメント目標を直接最適化するSafeDPOという新しいアルゴリズムを導入する。その結果、個別の報酬モデルとコストモデル、あるいは微調整中に言語モデルからサンプルを採取する必要がなくなる。 SafeDPOは,最先端の安全アライメントアルゴリズムと比較して,競争性能が向上することを示す。
論文参考訳（メタデータ） (2025-05-26T14:50:01Z)
ERPO: Advancing Safety Alignment via Ex-Ante Reasoning Preference Optimization [36.609297811592185]
元Ante Reasoning Preference Optimization (ERPO)は、大規模言語モデルのための新しい安全アライメントフレームワークである。提案手法は,まず,教師付き微調整(SFT)による推定モデルと,直接選好最適化(DPO)による安全性,有用性,効率性の向上,および,長さ制御された反復選好最適化戦略による推論遅延の緩和の3段階からなる。
論文参考訳（メタデータ） (2025-04-03T16:07:38Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
On Almost Surely Safe Alignment of Large Language Models at Inference-Time [20.5164976103514]
安全応答をほぼ確実に生成することを目的とした,LLMに対する新しい推論時間アライメント手法を提案する。我々は、安全制約の進化を追跡し、安全でない世代を動的に罰する安全状態を強化する。我々は,潜在空間におけるMDPを十分に大きな罰則で解く際に,与えられたコストモデルに対して公式な安全保証を示す。
論文参考訳（メタデータ） (2025-02-03T09:59:32Z)
Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging [43.44112117935541]
下流タスクのための細調整された大型言語モデル(LLM)は、安全に整合したLLMの安全性を低下させる。下流タスク性能を向上しつつ, LLM 固有の安全性を維持する手法を提案する。
論文参考訳（メタデータ） (2024-12-27T08:03:22Z)
Latent Safety-Constrained Policy Approach for Safe Offline Reinforcement Learning [7.888219789657414]
安全オフライン強化学習(RL)において、安全制約を厳格に遵守しつつ累積報酬を最大化する政策を開発することが目的である。本稿では, 条件付き変分オートエンコーダを用いて, 保守的に安全な政策を学習することから始まる新しいアプローチを用いて, この問題に対処する。我々は、これを制約付き逆戻り最大化問題とみなし、この政策は、推定された潜伏安全性の制約に従い、報酬を最適化することを目的としている。
論文参考訳（メタデータ） (2024-12-11T22:00:07Z)
Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization [16.35399722653875]
我々は、平均的な安全制約をより厳密な(即時)安全制約に置き換える、textbfRectified Policy Optimization (RePO)を提案する。 RePOの中核は、すべてのプロンプトの厳格な安全違反を罰する修正されたポリシー勾配によって駆動されるポリシー更新メカニズムである。我々のAlpaca-7B実験は,RePOが安全アライメントを改善し,基準法に比べて安全性の干渉を低減することを実証した。
論文参考訳（メタデータ） (2024-10-25T19:08:23Z)
Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-27T17:31:21Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文参考訳（メタデータ） (2024-05-29T22:12:52Z)
Towards Comprehensive and Efficient Post Safety Alignment of Large Language Models via Safety Patching [77.36097118561057]
textscSafePatchingは包括的で効率的なPSAのための新しいフレームワークである。 textscSafePatchingはベースラインメソッドよりも包括的で効率的なPSAを実現する。
論文参考訳（メタデータ） (2024-05-22T16:51:07Z)
ICDPO: Effectively Borrowing Alignment Capability of Others via In-context Direct Preference Optimization [24.55845271377532]
大規模な言語モデルは、安全なコンテンツの生成を保証するためにヒューマン・プライオリエンス・アライメントに依存している。 In-Context Direct Preference Optimization (ICDPO) と呼ばれる新しい手法を提案する。 ICDPOは、上記インスタントスコアラによって推定された整列応答を生成し、最終性能を向上させる。
論文参考訳（メタデータ） (2024-02-14T17:14:34Z)
Safe RLHF: Safe Reinforcement Learning from Human Feedback [16.69413517494355]
本稿では,人的価値アライメントのための新しいアルゴリズムである,人的フィードバックからの安全強化学習(Safe RLHF)を提案する。安全RLHFは、役に立つことと無害性に関する人間の嗜好を明示的に分離し、クラウドワーカーの緊張に対する混乱を効果的に回避する。モデル性能を高めながら有害な応答を緩和する優れた能力を示す。
論文参考訳（メタデータ） (2023-10-19T14:22:03Z)
Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文参考訳（メタデータ） (2022-09-29T20:49:25Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。