論文の概要: AlpacaFarm: A Simulation Framework for Methods that Learn from Human
Feedback
- arxiv url: http://arxiv.org/abs/2305.14387v2
- Date: Tue, 1 Aug 2023 05:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 17:27:56.839664
- Title: AlpacaFarm: A Simulation Framework for Methods that Learn from Human
Feedback
- Title(参考訳): AlpacaFarm:人間のフィードバックから学ぶ方法のシミュレーションフレームワーク
- Authors: Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani,
Jimmy Ba, Carlos Guestrin, Percy Liang, Tatsunori B. Hashimoto
- Abstract要約: ChatGPTのような大規模言語モデル(LLM)は、ユーザ命令をうまく追従できるため、広く採用されている。
低コストでフィードバックから学習するための研究と開発を可能にするシミュレータを開発した。
実際の10k対のフィードバックに基づいて11のモデルをトレーニングし、評価し、AlpacaFarmでトレーニングされたモデルのランキングが、人間のデータでトレーニングされたモデルのランキングと一致することを示す。
- 参考スコア(独自算出の注目度): 99.84554631249746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) such as ChatGPT have seen widespread adoption
due to their ability to follow user instructions well. Developing these LLMs
involves a complex yet poorly understood workflow requiring training with human
feedback. Replicating and understanding this instruction-following process
faces three major challenges: the high cost of data collection, the lack of
trustworthy evaluation, and the absence of reference method implementations. We
address these challenges with AlpacaFarm, a simulator that enables research and
development for learning from feedback at a low cost. First, we design LLM
prompts to simulate human feedback that are 45x cheaper than crowdworkers and
display high agreement with humans. Second, we propose an automatic evaluation
and validate it against human instructions obtained on real-world interactions.
Third, we contribute reference implementations for several methods (PPO,
best-of-n, expert iteration, and more) that learn from pairwise feedback.
Finally, as an end-to-end validation of AlpacaFarm, we train and evaluate
eleven models on 10k pairs of real human feedback and show that rankings of
models trained in AlpacaFarm match rankings of models trained on human data. As
a demonstration of the research possible in AlpacaFarm, we find that methods
that use a reward model can substantially improve over supervised fine-tuning
and that our reference PPO implementation leads to a +10% improvement in
win-rate against Davinci003. We release all components of AlpacaFarm at
https://github.com/tatsu-lab/alpaca_farm.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、ユーザ命令をうまく従えるため、広く採用されている。
これらのLLMの開発には、人間のフィードバックによるトレーニングを必要とする複雑なワークフローが伴う。
この命令追跡プロセスの複製と理解には、データ収集の高コスト、信頼できる評価の欠如、参照メソッドの実装の欠如という3つの大きな課題がある。
低コストでフィードバックから学ぶための研究と開発を可能にするシミュレータAlpacaFarmでこれらの課題に対処する。
まず、群衆労働者よりも45倍安い人間のフィードバックをシミュレートし、人間と高い合意を示すllmプロンプトをデザインする。
第2に,実世界インタラクションで得られたヒューマンインストラクションに対して,自動評価を行い,検証する。
第3に,ペアによるフィードバックから学ぶいくつかのメソッド (ppo,best-of-n,expert iterationなど) のリファレンス実装をコントリビュートする。
最後に、AlpacaFarmのエンドツーエンド検証として、実際の10k対のフィードバックに対して11のモデルをトレーニングし、評価し、AlpacaFarmでトレーニングされたモデルのランキングが、人間のデータに基づいてトレーニングされたモデルのランキングと一致することを示す。
AlpacaFarmで可能な研究の実証として、報酬モデルを用いた手法は教師付き微調整よりも大幅に改善され、我々の参照PPO実装はDavinci003に対する勝利率を+10%向上させることがわかった。
https://github.com/tatsu-lab/alpaca_farm.com/alpacaFarmのすべてのコンポーネントをリリースします。
関連論文リスト
- Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Sample Efficient Reinforcement Learning from Human Feedback via Active
Exploration [29.935758027209292]
予測に基づくフィードバックは、強化学習における多くのアプリケーションにとって重要である。
本研究は,人間のフィードバックを得るために文脈を選択することができるという事実を生かしている。
提案手法は,複数のベースラインよりも人間の好みのサンプルが少ない場合に,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Aligning Large Language Models through Synthetic Feedback [43.84431341195111]
本研究では,ヒトのアノテーションに依存しない合成フィードバックを用いたアライメント学習フレームワークを提案する。
人間の評価では,我々のモデルはアルパカとドリー-v2にそれぞれ55.0%,58.5%が好まれる。
論文 参考訳(メタデータ) (2023-05-23T06:41:16Z) - Training a Helpful and Harmless Assistant with Reinforcement Learning
from Human Feedback [8.409764908043396]
人からのフィードバックからの好みのモデリングと強化学習を微調整言語モデルに適用し、補助的アシスタントとして機能させる。
このアライメントトレーニングにより,ほぼすべてのNLP評価の性能が向上することがわかった。
オンライントレーニングの反復的なモードについて検討し、人間のフィードバックデータを用いて毎週のケイデンスで好みモデルとRLポリシーを更新する。
論文 参考訳(メタデータ) (2022-04-12T15:02:38Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。