論文の概要: A Theoretical Analysis of Nash Learning from Human Feedback under
General KL-Regularized Preference
- arxiv url: http://arxiv.org/abs/2402.07314v1
- Date: Sun, 11 Feb 2024 21:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 16:20:48.290128
- Title: A Theoretical Analysis of Nash Learning from Human Feedback under
General KL-Regularized Preference
- Title(参考訳): 一般kl正規化選好における人間フィードバックからのnash学習の理論解析
- Authors: Chenlu Ye, Wei Xiong, Yuheng Zhang, Nan Jiang, Tong Zhang
- Abstract要約: 我々は、最近提案された学習パラダイム、NLHF(Nash Learning from Human feedback)の理論的洞察を提供する。
学習の目的は、競合するポリシーよりも好まれる応答を一貫して生成するポリシーを見つけることである。
この結果は,NLHFパラダイムと従来のRL理論を結びつけ,一般の嗜好の下での報酬モデルなし学習の可能性を検証する。
- 参考スコア(独自算出の注目度): 19.205014621289678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) learns from the preference
signal provided by a probabilistic preference model, which takes a prompt and
two responses as input, and produces a score indicating the preference of one
response against another. So far, the most popular RLHF paradigm is
reward-based, which starts with an initial step of reward modeling, and the
constructed reward is then used to provide a reward signal for the subsequent
reward optimization stage. However, the existence of a reward function is a
strong assumption and the reward-based RLHF is limited in expressivity and
cannot capture the real-world complicated human preference.
In this work, we provide theoretical insights for a recently proposed
learning paradigm, Nash learning from human feedback (NLHF), which considered a
general preference model and formulated the alignment process as a game between
two competitive LLMs. The learning objective is to find a policy that
consistently generates responses preferred over any competing policy while
staying close to the initial model. The objective is defined as the Nash
equilibrium (NE) of the KL-regularized preference model. We aim to make the
first attempt to study the theoretical learnability of the KL-regularized NLHF
by considering both offline and online settings. For the offline learning from
a pre-collected dataset, we propose algorithms that are efficient under
suitable coverage conditions of the dataset. For batch online learning from
iterative interactions with a preference oracle, our proposed algorithm enjoys
a finite sample guarantee under the structural condition of the underlying
preference model. Our results connect the new NLHF paradigm with traditional RL
theory, and validate the potential of reward-model-free learning under general
preference.
- Abstract(参考訳): 人的フィードバック(rlhf)からの強化学習は、プロンプトと2つの応答を入力として、確率的選好モデルが提供する選好信号から学習し、一方の反応の選好を示すスコアを生成する。
これまでのところ、最も一般的なRLHFパラダイムは報酬ベースであり、報酬モデリングの最初のステップから始まり、構築された報酬を使用して報酬最適化段階の報酬信号を提供する。
しかし、報酬関数の存在は強い仮定であり、報酬ベースのrlhfは表現力に制限があり、現実世界の複雑な人間の好みを捉えることができない。
本研究では,最近提案された学習パラダイムであるnash learning from human feedback (nlhf)に対する理論的洞察を提供する。
学習の目的は、初期モデルに近づいたまま、いかなる競合ポリシーよりも常に好まれる応答を生成するポリシーを見つけることである。
目的は、KL正規化選好モデルのナッシュ平衡(NE)として定義される。
我々は,オフライン環境とオンライン環境の両方を考慮したkl正規化nlhfの理論学習可能性の研究を初めて行おうとする。
予め収集したデータセットからオフライン学習を行うために,データセットの適切なカバレッジ条件下で効率的なアルゴリズムを提案する。
選好託と反復的な相互作用からバッチオンライン学習を行う場合、提案アルゴリズムは、基礎となる選好モデルの構造条件下で有限サンプル保証を享受する。
この結果は,NLHFパラダイムと従来のRL理論を結びつけ,一般の嗜好の下での報酬モデルなし学習の可能性を検証する。
関連論文リスト
- Iterative Preference Learning from Human Feedback: Bridging Theory and
Practice for RLHF under KL-Constraint [59.18441633176669]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程の理論的枠組みについて検討する。
我々は、標準的な数学的定式化、RLHFの逆KL正規化文脈帯域を考える。
我々は、オフライン、オンライン、ハイブリッドの3つの異なる設定でその振る舞いを調査し、有限サンプル理論的保証を持つ効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Nash Learning from Human Feedback [80.86423717860141]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [75.36922009358676]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [67.07008558942792]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Federated Ensemble Model-based Reinforcement Learning in Edge Computing [21.840086997141498]
フェデレートラーニング(Federated Learning、FL)は、プライバシ保護のための分散機械学習パラダイムである。
モデルベースRLとアンサンブル知識蒸留をFLに効果的に組み込む新しいFRLアルゴリズムを提案する。
具体的には、FLと知識蒸留を利用して、クライアント向けの動的モデルのアンサンブルを作成し、環境と相互作用することなく、単にアンサンブルモデルを使用することでポリシーを訓練する。
論文 参考訳(メタデータ) (2021-09-12T16:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。