Fugu-MT 論文翻訳(概要): RL with KL penalties is better viewed as Bayesian inference

論文の概要: RL with KL penalties is better viewed as Bayesian inference

arxiv url: http://arxiv.org/abs/2205.11275v1
Date: Mon, 23 May 2022 12:47:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-25 06:32:03.551760
Title: RL with KL penalties is better viewed as Bayesian inference
Title（参考訳）: KLの罰則を持つRLはベイズ推論としてより優れている
Authors: Tomasz Korbak and Ethan Perez and Christopher L Buckley
Abstract要約: 我々は、言語モデルを強化学習ポリシーとして扱う際の課題を分析する。これらの課題を避けるには、どのようにしてRLパラダイムを超えていく必要があるかを示します。
参考スコア（独自算出の注目度）: 4.473139775790299
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) is frequently employed in fine-tuning large language models (LMs), such as GPT-3, to penalize them for undesirable features of generated sequences, such as offensiveness, social bias, harmfulness or falsehood. The RL formulation involves treating the LM as a policy and updating it to maximise the expected value of a reward function which captures human preferences, such as non-offensiveness. In this paper, we analyze challenges associated with treating a language model as an RL policy and show how avoiding those challenges requires moving beyond the RL paradigm. We start by observing that the standard RL approach is flawed as an objective for fine-tuning LMs because it leads to distribution collapse: turning the LM into a degenerate distribution. Then, we analyze KL-regularised RL, a widely used recipe for fine-tuning LMs, which additionally constrains the fine-tuned LM to stay close to its original distribution in terms of Kullback-Leibler (KL) divergence. We show that KL-regularised RL is equivalent to variational inference: approximating a Bayesian posterior which specifies how to update a prior LM to conform with evidence provided by the reward function. We argue that this Bayesian inference view of KL-regularised RL is more insightful than the typically employed RL perspective. The Bayesian inference view explains how KL-regularised RL avoids the distribution collapse problem and offers a first-principles derivation for its objective. While this objective happens to be equivalent to RL (with a particular choice of parametric reward), there exist other objectives for fine-tuning LMs which are no longer equivalent to RL. That observation leads to a more general point: RL is not an adequate formal framework for problems such as fine-tuning language models. These problems are best viewed as Bayesian inference: approximating a pre-defined target distribution.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、GPT-3のような微調整された大規模言語モデル(LM)において、攻撃性、社会的偏見、有害性、偽りなどの生成配列の望ましくない特徴を罰するためにしばしば用いられる。 rlの定式化は、lmをポリシーとして扱い、非攻撃性などの人間の好みを捉えた報酬関数の期待値を最大化するために更新することを含む。本稿では、言語モデルをRLポリシーとして扱う際の課題を分析し、これらの課題を避けるためには、RLパラダイムを超えてどう動くかを示す。まず、標準RLアプローチは、分布の崩壊につながるため、微調整されたLMの目的として欠陥があることを観察することから始める。そこで我々は,KL-regularized RL(微調整LMのレシピ)を解析し,KL(Kulback-Leibler)のばらつきの観点から,微調整LMが元の分布に近づき続けることを制限した。 kl正規化rlは変分推論と同値である: 報酬関数によって提供される証拠に適合するために、事前のlmを更新する方法を規定するベイズ後段を近似する。我々は、KL-正則化 RL のベイズ的推論は、通常用いられる RL の観点よりもより洞察に富むと論じる。ベイズ予想は、KL-正則化RLが分布崩壊問題を避ける方法を説明し、その目的のために第一原理の導出を提供する。この目的は(パラメトリック報酬の特定の選択を伴う)RLと等価であるが、もはやRLと等価ではない微調整LMの目的は他にもある。 RLは、微調整言語モデルのような問題に対する適切な形式的なフレームワークではありません。これらの問題は、事前定義された目標分布を近似するベイズ推論として最もよく見なされる。

関連論文リスト

Reinforcement Learning Fine-Tunes a Sparse Subnetwork in Large Language Models [0.0]
強化学習(Reinforcement Learning, RL)の微調整では、モデルのパラメータの大部分を更新する必要があると仮定されることが多い。我々はこの現象をRLにより引き起こされるパラメータ更新空間と呼ぶ。このスパースサブネットワークのみを微調整することで、完全なモデル性能が回復し、完全に微調整されたモデルとほぼ同じパラメータが得られることを示す。
論文参考訳（メタデータ） (2025-07-23T01:02:17Z)
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文参考訳（メタデータ） (2025-05-30T17:59:01Z)
Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文参考訳（メタデータ） (2025-05-26T22:51:00Z)
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文参考訳（メタデータ） (2025-04-15T16:15:02Z)
$Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training [60.01594991938747]
$Qsharp$ は KL 正規化 RL の値に基づくアルゴリズムで、最適な正規化 $Q$ 関数を使用して参照ポリシーを導出する。この結果から,LLMのポストトレーニングに有効なアプローチとして$Qsharp$が注目され,性能と理論的保証が向上した。
論文参考訳（メタデータ） (2025-02-27T21:43:00Z)
On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文参考訳（メタデータ） (2025-01-28T00:29:38Z)
On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [33.331389392270665]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。本稿では,自然言語生成に適した条件付きPM RLHFを提案する。
論文参考訳（メタデータ） (2024-05-26T07:00:05Z)
More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文参考訳（メタデータ） (2024-02-11T13:25:53Z)
Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。この分布は有限個の確率変数で近似できることを示す。近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-23T20:27:40Z)
LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文参考訳（メタデータ） (2022-09-21T13:21:00Z)
BADDr: Bayes-Adaptive Deep Dropout RL for POMDPs [22.78390558602203]
BRLの表現非依存な定式化を部分的に観測可能とし,従来のモデルを1つの理論的傘の下で統一する。また,新しい導出手法であるBayes-Adaptive Deep Dropout rl (BADDr)を提案する。
論文参考訳（メタデータ） (2022-02-17T19:48:35Z)
Challenging Common Assumptions in Convex Reinforcement Learning [34.739021482682176]
実際の有限公試の代わりに無限公試の目的を誤って最適化することは、通常行われているように、かなりの近似誤差をもたらす可能性があることを示す。我々はこの問題に光を当てることで、凸RLのより良いアプローチと方法論がもたらされると考えている。
論文参考訳（メタデータ） (2022-02-03T10:47:10Z)
Regularization Guarantees Generalization in Bayesian Reinforcement Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文参考訳（メタデータ） (2021-09-24T07:48:34Z)
Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文参考訳（メタデータ） (2021-03-08T18:06:44Z)
MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文参考訳（メタデータ） (2020-05-27T08:46:41Z)
Leverage the Average: an Analysis of KL Regularization in RL [44.01222241795292]
Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
論文参考訳（メタデータ） (2020-03-31T10:55:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。