論文の概要: Online Iterative Reinforcement Learning from Human Feedback with General Preference Model
- arxiv url: http://arxiv.org/abs/2402.07314v3
- Date: Tue, 12 Nov 2024 08:24:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:46.412454
- Title: Online Iterative Reinforcement Learning from Human Feedback with General Preference Model
- Title(参考訳): 一般選好モデルを用いた人のフィードバックからのオンライン反復強化学習
- Authors: Chenlu Ye, Wei Xiong, Yuheng Zhang, Hanze Dong, Nan Jiang, Tong Zhang,
- Abstract要約: 本稿では,人間のフィードバックからの強化学習(RLHF)について,一般的な嗜好のオラクルの文脈で検討する。
我々は、RLHFの2つのLLM間の逆KL正規化ミニマックスゲームである標準的な数学的定式化を考える。
このフレームワークは報酬ベースよりも厳密に汎用的であり,事前選択された選好データセットからオフライン学習を行うためのサンプル効率のよいアルゴリズムとオンライン学習を提案する。
- 参考スコア(独自算出の注目度): 20.81421550138371
- License:
- Abstract: We investigate Reinforcement Learning from Human Feedback (RLHF) in the context of a general preference oracle. In particular, we do not assume the existence of a reward function and an oracle preference signal drawn from the Bradley-Terry model as most of the prior works do. We consider a standard mathematical formulation, the reverse-KL regularized minimax game between two LLMs for RLHF under general preference oracle. The learning objective of this formulation is to find a policy so that it is consistently preferred by the KL-regularized preference oracle over any competing LLMs. We show that this framework is strictly more general than the reward-based one, and propose sample-efficient algorithms for both the offline learning from a pre-collected preference dataset and online learning where we can query the preference oracle along the way of training. Empirical studies verify the effectiveness of the proposed framework.
- Abstract(参考訳): 本稿では,人間のフィードバックからの強化学習(RLHF)について,一般的な嗜好のオラクルの文脈で検討する。
特に、報奨関数とBradley-Terryモデルから引き出されたオラクル選好信号の存在を前提としない。
我々は、RLHFの2つのLLM間の逆KL正規化ミニマックスゲームである標準的な数学的定式化を考える。
この定式化の学習目的は、競合するLLMよりもKL規則化された選好オラクルに一貫して好まれるようにポリシーを見つけることである。
このフレームワークは報奨ベースよりも厳密な汎用性を示し,事前選択した選好データセットからオフライン学習を行うためのサンプル効率のよいアルゴリズムと,トレーニングの過程で選好のオラクルに問い合わせるオンライン学習を提案する。
提案手法の有効性を実証研究により検証した。
関連論文リスト
- Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。
ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。
また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文 参考訳(メタデータ) (2024-08-07T04:20:28Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [33.331389392270665]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。
我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。
本稿では,自然言語生成に適した条件付きPM RLHFを提案する。
論文 参考訳(メタデータ) (2024-05-26T07:00:05Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - On the Statistical Benefits of Curriculum Learning [33.94130046391917]
本研究では,マルチタスク線形回帰問題におけるカリキュラム学習(CL)の利点について,構造化と非構造化の両方の条件下で検討する。
その結果,適応学習は,非構造化環境でのオラクル学習よりも根本的に困難であることが判明した。
論文 参考訳(メタデータ) (2021-11-13T14:51:07Z) - Beyond UCB: Optimal and Efficient Contextual Bandits with Regression
Oracles [112.89548995091182]
我々は、文脈的帯域幅からオンライン回帰への、初めての普遍的で最適な削減を提供する。
我々のアルゴリズムは、実現可能性以上の分布仮定は必要とせず、コンテキストが逆選択された場合でも機能する。
論文 参考訳(メタデータ) (2020-02-12T11:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。