論文の概要: A Theoretical Analysis of Nash Learning from Human Feedback under
General KL-Regularized Preference
- arxiv url: http://arxiv.org/abs/2402.07314v1
- Date: Sun, 11 Feb 2024 21:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 16:20:48.290128
- Title: A Theoretical Analysis of Nash Learning from Human Feedback under
General KL-Regularized Preference
- Title(参考訳): 一般kl正規化選好における人間フィードバックからのnash学習の理論解析
- Authors: Chenlu Ye, Wei Xiong, Yuheng Zhang, Nan Jiang, Tong Zhang
- Abstract要約: 我々は、最近提案された学習パラダイム、NLHF(Nash Learning from Human feedback)の理論的洞察を提供する。
学習の目的は、競合するポリシーよりも好まれる応答を一貫して生成するポリシーを見つけることである。
この結果は,NLHFパラダイムと従来のRL理論を結びつけ,一般の嗜好の下での報酬モデルなし学習の可能性を検証する。
- 参考スコア(独自算出の注目度): 19.205014621289678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) learns from the preference
signal provided by a probabilistic preference model, which takes a prompt and
two responses as input, and produces a score indicating the preference of one
response against another. So far, the most popular RLHF paradigm is
reward-based, which starts with an initial step of reward modeling, and the
constructed reward is then used to provide a reward signal for the subsequent
reward optimization stage. However, the existence of a reward function is a
strong assumption and the reward-based RLHF is limited in expressivity and
cannot capture the real-world complicated human preference.
In this work, we provide theoretical insights for a recently proposed
learning paradigm, Nash learning from human feedback (NLHF), which considered a
general preference model and formulated the alignment process as a game between
two competitive LLMs. The learning objective is to find a policy that
consistently generates responses preferred over any competing policy while
staying close to the initial model. The objective is defined as the Nash
equilibrium (NE) of the KL-regularized preference model. We aim to make the
first attempt to study the theoretical learnability of the KL-regularized NLHF
by considering both offline and online settings. For the offline learning from
a pre-collected dataset, we propose algorithms that are efficient under
suitable coverage conditions of the dataset. For batch online learning from
iterative interactions with a preference oracle, our proposed algorithm enjoys
a finite sample guarantee under the structural condition of the underlying
preference model. Our results connect the new NLHF paradigm with traditional RL
theory, and validate the potential of reward-model-free learning under general
preference.
- Abstract(参考訳): 人的フィードバック(rlhf)からの強化学習は、プロンプトと2つの応答を入力として、確率的選好モデルが提供する選好信号から学習し、一方の反応の選好を示すスコアを生成する。
これまでのところ、最も一般的なRLHFパラダイムは報酬ベースであり、報酬モデリングの最初のステップから始まり、構築された報酬を使用して報酬最適化段階の報酬信号を提供する。
しかし、報酬関数の存在は強い仮定であり、報酬ベースのrlhfは表現力に制限があり、現実世界の複雑な人間の好みを捉えることができない。
本研究では,最近提案された学習パラダイムであるnash learning from human feedback (nlhf)に対する理論的洞察を提供する。
学習の目的は、初期モデルに近づいたまま、いかなる競合ポリシーよりも常に好まれる応答を生成するポリシーを見つけることである。
目的は、KL正規化選好モデルのナッシュ平衡(NE)として定義される。
我々は,オフライン環境とオンライン環境の両方を考慮したkl正規化nlhfの理論学習可能性の研究を初めて行おうとする。
予め収集したデータセットからオフライン学習を行うために,データセットの適切なカバレッジ条件下で効率的なアルゴリズムを提案する。
選好託と反復的な相互作用からバッチオンライン学習を行う場合、提案アルゴリズムは、基礎となる選好モデルの構造条件下で有限サンプル保証を享受する。
この結果は,NLHFパラダイムと従来のRL理論を結びつけ,一般の嗜好の下での報酬モデルなし学習の可能性を検証する。
関連論文リスト
- Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。
ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。
また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文 参考訳(メタデータ) (2024-08-07T04:20:28Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [33.331389392270665]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。
我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。
本稿では,自然言語生成に適した条件付きPM RLHFを提案する。
論文 参考訳(メタデータ) (2024-05-26T07:00:05Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - On the Statistical Benefits of Curriculum Learning [33.94130046391917]
本研究では,マルチタスク線形回帰問題におけるカリキュラム学習(CL)の利点について,構造化と非構造化の両方の条件下で検討する。
その結果,適応学習は,非構造化環境でのオラクル学習よりも根本的に困難であることが判明した。
論文 参考訳(メタデータ) (2021-11-13T14:51:07Z) - Beyond UCB: Optimal and Efficient Contextual Bandits with Regression
Oracles [112.89548995091182]
我々は、文脈的帯域幅からオンライン回帰への、初めての普遍的で最適な削減を提供する。
我々のアルゴリズムは、実現可能性以上の分布仮定は必要とせず、コンテキストが逆選択された場合でも機能する。
論文 参考訳(メタデータ) (2020-02-12T11:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。