論文の概要: COPR: Continual Human Preference Learning via Optimal Policy
Regularization
- arxiv url: http://arxiv.org/abs/2402.14228v2
- Date: Tue, 27 Feb 2024 08:47:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 20:37:23.188512
- Title: COPR: Continual Human Preference Learning via Optimal Policy
Regularization
- Title(参考訳): COPR: 最適政策規則化による継続的人選学習
- Authors: Han Zhang, Lin Gui, Yu Lei, Yuanzhao Zhai, Yehong Zhang, Yulan He, Hui
Wang, Yue Yu, Kam-Fai Wong, Bin Liang, Ruifeng Xu
- Abstract要約: RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)と人間の嗜好の整合性を改善するために一般的に用いられる。
本稿では,最適政策理論からインスピレーションを得たCOPR法を提案する。
- 参考スコア(独自算出の注目度): 56.1193256819677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is commonly utilized to
improve the alignment of Large Language Models (LLMs) with human preferences.
Given the evolving nature of human preferences, continual alignment becomes
more crucial and practical in comparison to traditional static alignment.
Nevertheless, making RLHF compatible with Continual Learning (CL) is
challenging due to its complex process. Meanwhile, directly learning new human
preferences may lead to Catastrophic Forgetting (CF) of historical preferences,
resulting in helpless or harmful outputs. To overcome these challenges, we
propose the Continual Optimal Policy Regularization (COPR) method, which draws
inspiration from the optimal policy theory. COPR utilizes a sampling
distribution as a demonstration and regularization constraints for CL. It
adopts the Lagrangian Duality (LD) method to dynamically regularize the current
policy based on the historically optimal policy, which prevents CF and avoids
over-emphasizing unbalanced objectives. We also provide formal proof for the
learnability of COPR. The experimental results show that COPR outperforms
strong CL baselines on our proposed benchmark, in terms of reward-based, GPT-4
evaluations and human assessment. Furthermore, we validate the robustness of
COPR under various CL settings, including different backbones, replay memory
sizes, and learning orders.
- Abstract(参考訳): RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)と人間の嗜好の整合性を改善するために一般的に用いられる。
人間の嗜好の進化的な性質を考えると、連続的なアライメントは従来の静的アライメントと比べてより重要で実用的になる。
それでも、RLHFをCL(Continuous Learning)と互換性を持たせることは、複雑なプロセスのため困難である。
一方、新しい人間の嗜好を直接学習することは、歴史的嗜好の破滅的なフォーッティング(CF)につながる可能性がある。
これらの課題を克服するために, 最適政策理論から着想を得たcopr(continual optimal policy regularization)法を提案する。
COPRはCLのサンプル分布を実演と正規化の制約として利用する。
これはラグランジアン双対性(ld)法を採用し、歴史的に最適な政策に基づいて現在の政策を動的に定式化する。
また,COPRの学習可能性に関する公式な証明も提供する。
実験の結果,COPR は報酬ベース,GPT-4 評価,人的評価において,提案したベンチマークのCL ベースラインよりも優れていた。
さらに,異なるバックボーン,メモリサイズ,学習順序など,さまざまなCL設定下でのCOPRの堅牢性を検証する。
関連論文リスト
- A Theoretical Analysis of Nash Learning from Human Feedback under
General KL-Regularized Preference [19.205014621289678]
我々は、最近提案された学習パラダイム、NLHF(Nash Learning from Human feedback)の理論的洞察を提供する。
学習の目的は、競合するポリシーよりも好まれる応答を一貫して生成するポリシーを見つけることである。
この結果は,NLHFパラダイムと従来のRL理論を結びつけ,一般の嗜好の下での報酬モデルなし学習の可能性を検証する。
論文 参考訳(メタデータ) (2024-02-11T21:44:21Z) - Uncertainty-Penalized Reinforcement Learning from Human Feedback with
Diverse Reward LoRA Ensembles [26.955375398765085]
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の整合性のための有望なパラダイムとして出現する。
本稿では,既存のRLHF法でよく用いられるKL正則化の弱点を観察し,過度な最適化に対処する。
本稿では,RLファインタニング中の不確実性正則化を取り入れた不確実性補償RLHF(UP-RLHF)を提案する。
論文 参考訳(メタデータ) (2023-12-30T14:14:14Z) - Nash Learning from Human Feedback [80.86423717860141]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - COPF: Continual Learning Human Preference through Optimal Policy Fitting [34.48687904872857]
RLHF(Reinforcement Learning from Human Feedback)は、訓練済み言語モデル(LM)を改善するための一般的な手法である。
COPFは単一の学習フェーズを含み、複雑な強化学習を必要としない。
実験の結果,COPFは人間の嗜好に整合する上で,強い継続的学習(CL)のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-10-24T10:05:32Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [75.36922009358676]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - Reinforcement Learning from Diverse Human Preferences [95.61153128294939]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。