論文の概要: RL with KL penalties is better viewed as Bayesian inference
- arxiv url: http://arxiv.org/abs/2205.11275v1
- Date: Mon, 23 May 2022 12:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 06:32:03.551760
- Title: RL with KL penalties is better viewed as Bayesian inference
- Title(参考訳): KLの罰則を持つRLはベイズ推論としてより優れている
- Authors: Tomasz Korbak and Ethan Perez and Christopher L Buckley
- Abstract要約: 我々は、言語モデルを強化学習ポリシーとして扱う際の課題を分析する。
これらの課題を避けるには、どのようにしてRLパラダイムを超えていく必要があるかを示します。
- 参考スコア(独自算出の注目度): 4.473139775790299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is frequently employed in fine-tuning large
language models (LMs), such as GPT-3, to penalize them for undesirable features
of generated sequences, such as offensiveness, social bias, harmfulness or
falsehood. The RL formulation involves treating the LM as a policy and updating
it to maximise the expected value of a reward function which captures human
preferences, such as non-offensiveness. In this paper, we analyze challenges
associated with treating a language model as an RL policy and show how avoiding
those challenges requires moving beyond the RL paradigm. We start by observing
that the standard RL approach is flawed as an objective for fine-tuning LMs
because it leads to distribution collapse: turning the LM into a degenerate
distribution. Then, we analyze KL-regularised RL, a widely used recipe for
fine-tuning LMs, which additionally constrains the fine-tuned LM to stay close
to its original distribution in terms of Kullback-Leibler (KL) divergence. We
show that KL-regularised RL is equivalent to variational inference:
approximating a Bayesian posterior which specifies how to update a prior LM to
conform with evidence provided by the reward function. We argue that this
Bayesian inference view of KL-regularised RL is more insightful than the
typically employed RL perspective. The Bayesian inference view explains how
KL-regularised RL avoids the distribution collapse problem and offers a
first-principles derivation for its objective. While this objective happens to
be equivalent to RL (with a particular choice of parametric reward), there
exist other objectives for fine-tuning LMs which are no longer equivalent to
RL. That observation leads to a more general point: RL is not an adequate
formal framework for problems such as fine-tuning language models. These
problems are best viewed as Bayesian inference: approximating a pre-defined
target distribution.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、GPT-3のような微調整された大規模言語モデル(LM)において、攻撃性、社会的偏見、有害性、偽りなどの生成配列の望ましくない特徴を罰するためにしばしば用いられる。
rlの定式化は、lmをポリシーとして扱い、非攻撃性などの人間の好みを捉えた報酬関数の期待値を最大化するために更新することを含む。
本稿では、言語モデルをRLポリシーとして扱う際の課題を分析し、これらの課題を避けるためには、RLパラダイムを超えてどう動くかを示す。
まず、標準RLアプローチは、分布の崩壊につながるため、微調整されたLMの目的として欠陥があることを観察することから始める。
そこで我々は,KL-regularized RL(微調整LMのレシピ)を解析し,KL(Kulback-Leibler)のばらつきの観点から,微調整LMが元の分布に近づき続けることを制限した。
kl正規化rlは変分推論と同値である: 報酬関数によって提供される証拠に適合するために、事前のlmを更新する方法を規定するベイズ後段を近似する。
我々は、KL-正則化 RL のベイズ的推論は、通常用いられる RL の観点よりもより洞察に富むと論じる。
ベイズ予想は、KL-正則化RLが分布崩壊問題を避ける方法を説明し、その目的のために第一原理の導出を提供する。
この目的は(パラメトリック報酬の特定の選択を伴う)RLと等価であるが、もはやRLと等価ではない微調整LMの目的は他にもある。
RLは、微調整言語モデルのような問題に対する適切な形式的なフレームワークではありません。
これらの問題は、事前定義された目標分布を近似するベイズ推論として最もよく見なされる。
関連論文リスト
- On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [33.331389392270665]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。
我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。
本稿では,自然言語生成に適した条件付きPM RLHFを提案する。
論文 参考訳(メタデータ) (2024-05-26T07:00:05Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - BADDr: Bayes-Adaptive Deep Dropout RL for POMDPs [22.78390558602203]
BRLの表現非依存な定式化を部分的に観測可能とし,従来のモデルを1つの理論的傘の下で統一する。
また,新しい導出手法であるBayes-Adaptive Deep Dropout rl (BADDr)を提案する。
論文 参考訳(メタデータ) (2022-02-17T19:48:35Z) - Challenging Common Assumptions in Convex Reinforcement Learning [34.739021482682176]
実際の有限公試の代わりに無限公試の目的を誤って最適化することは、通常行われているように、かなりの近似誤差をもたらす可能性があることを示す。
我々はこの問題に光を当てることで、凸RLのより良いアプローチと方法論がもたらされると考えている。
論文 参考訳(メタデータ) (2022-02-03T10:47:10Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Leverage the Average: an Analysis of KL Regularization in RL [44.01222241795292]
Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。
非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。
我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
論文 参考訳(メタデータ) (2020-03-31T10:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。