論文の概要: One-Shot Safety Alignment for Large Language Models via Optimal Dualization
- arxiv url: http://arxiv.org/abs/2405.19544v2
- Date: Sun, 15 Sep 2024 17:42:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 02:05:48.429580
- Title: One-Shot Safety Alignment for Large Language Models via Optimal Dualization
- Title(参考訳): 最適双対化による大規模言語モデルのワンショット安全アライメント
- Authors: Xinmeng Huang, Shuo Li, Edgar Dobriban, Osbert Bastani, Hamed Hassani, Dongsheng Ding,
- Abstract要約: 本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースのシナリオにおける2つの実用的なアルゴリズムに導かれる。
- 参考スコア(独自算出の注目度): 64.52223677468861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing safety concerns surrounding Large Language Models (LLMs) raise an urgent need to align them with diverse human preferences to simultaneously enhance their helpfulness and safety. A promising approach is to enforce safety constraints through Reinforcement Learning from Human Feedback (RLHF). For such constrained RLHF, common Lagrangian-based primal-dual policy optimization methods are computationally expensive and often unstable. This paper presents a dualization perspective that reduces constrained alignment to an equivalent unconstrained alignment problem. We do so by pre-optimizing a smooth and convex dual function that has a closed form. This shortcut eliminates the need for cumbersome primal-dual policy iterations, thus greatly reducing the computational burden and improving training stability. Our strategy leads to two practical algorithms in model-based and preference-based scenarios (MoCAN and PeCAN, respectively). A broad range of experiments demonstrate the effectiveness of our methods.
- Abstract(参考訳): LLM(Large Language Models, 大規模言語モデル)を取り巻く安全性の懸念が高まり、その利便性と安全性を同時に向上するために、様々な人間の好みに合わせる必要がある。
有望なアプローチは、RLHF(Reinforcement Learning from Human Feedback)を通じて安全性の制約を実施することである。
このような制約付きRLHFでは、一般的なラグランジアンベースの原始双対ポリシー最適化手法は計算コストが高く、しばしば不安定である。
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
このショートカットは、煩雑な原始二重ポリシー反復の必要性を排除し、計算負担を大幅に低減し、訓練安定性を向上させる。
我々の戦略はモデルベースと嗜好ベースのシナリオ(それぞれMoCANとPeCAN)の2つの実践的アルゴリズムに導かれる。
幅広い実験により,本手法の有効性が示された。
関連論文リスト
- Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Self-Supervised Primal-Dual Learning for Constrained Optimization [19.965556179096385]
本稿では,制約付き最適化問題の最適解を直接近似する機械学習モデルの訓練方法を検討する。
プリマル・デュアル・ラーニング(PDL, Primal-Dual Learning)は,事前解決した一連のインスタンスや,学習と推論のための最適化解法を必要としない自己指導型トレーニング手法である。
論文 参考訳(メタデータ) (2022-08-18T20:07:10Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Constrained Variational Policy Optimization for Safe Reinforcement
Learning [40.38842532850959]
安全強化学習は、安全クリティカルなアプリケーションにデプロイする前に、一定の制約を満たすポリシーを学ぶことを目的としている。
主要な制約付き最適化フレームワークとしての原始双対は不安定な問題に悩まされ、最適性の保証が欠如している。
本稿では,新しい確率的推論の観点から問題を克服し,安全政策を学習するための期待最大化方式を提案する。
論文 参考訳(メタデータ) (2022-01-28T04:24:09Z) - Primal-dual Learning for the Model-free Risk-constrained Linear
Quadratic Regulator [0.8629912408966145]
リスク対応コントロールは、予期せぬイベントに取り組むことを約束しながら、既知のダイナミックなモデルを必要とする。
本稿では,線形システムに着目したリスク対応制御系を学習するためのモデルフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-22T04:40:15Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。