論文の概要: Sample Efficient Reinforcement Learning from Human Feedback via Active
Exploration
- arxiv url: http://arxiv.org/abs/2312.00267v1
- Date: Fri, 1 Dec 2023 00:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 16:02:17.551446
- Title: Sample Efficient Reinforcement Learning from Human Feedback via Active
Exploration
- Title(参考訳): アクティブ探索によるヒトフィードバックからのサンプル効率的な強化学習
- Authors: Viraj Mehta and Vikramjeet Das and Ojash Neopane and Yijia Dai and
Ilija Bogunovic and Jeff Schneider and Willie Neiswanger
- Abstract要約: 予測に基づくフィードバックは、強化学習における多くのアプリケーションにとって重要である。
本研究は,人間のフィードバックを得るために文脈を選択することができるという事実を生かしている。
提案手法は,複数のベースラインよりも人間の好みのサンプルが少ない場合に,より優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 29.935758027209292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based feedback is important for many applications in reinforcement
learning where direct evaluation of a reward function is not feasible. A
notable recent example arises in reinforcement learning from human feedback
(RLHF) on large language models. For many applications of RLHF, the cost of
acquiring the human feedback can be substantial. In this work, we take
advantage of the fact that one can often choose contexts at which to obtain
human feedback in order to most efficiently identify a good policy, and
formalize this as an offline contextual dueling bandit problem. We give an
upper-confidence-bound style algorithm for this problem and prove a polynomial
worst-case regret bound. We then provide empirical confirmation in a synthetic
setting that our approach outperforms existing methods. After, we extend the
setting and methodology for practical use in RLHF training of large language
models. Here, our method is able to reach better performance with fewer samples
of human preferences than multiple baselines on three real-world datasets.
- Abstract(参考訳): 評価に基づくフィードバックは,報酬関数の直接評価が不可能な強化学習において,多くの応用において重要である。
最近の顕著な例は、大規模な言語モデルにおける人間のフィードバック(RLHF)からの強化学習である。
RLHFの多くの応用において、人間のフィードバックを得るためのコストは相当である。
本研究では,適切な方針を最も効率的に特定するために,人間のフィードバックを得るためのコンテキストを選択できるという利点を生かして,これをオフラインのコンテクスト・デュエル・バンディット問題として定式化する。
本稿では,この問題に対して高信頼度型アルゴリズムを提案し,多項式の最悪ケース後悔境界を証明した。
次に,本手法が既存手法より優れていることを,合成条件で実証的に確認する。
その後、大規模言語モデルのRLHF訓練における実践的利用のための設定と方法論を拡張した。
そこで本手法は,実世界の3つのデータセット上での複数のベースラインよりも,人間の好みのサンプルが少なく,より優れた性能を実現することができる。
関連論文リスト
- Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models [8.025808955214957]
本稿では,大規模言語モデルフィードバックによる強化学習の利点と限界について考察する。
本稿では,フィードバックを潜在的形状関数として提案する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-22T19:52:08Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Kernelized Offline Contextual Dueling Bandits [15.646879026749168]
本研究では、エージェントが人間のフィードバックを得るためにコンテキストを選択することがしばしばあるという事実を活用する。
我々は,この設定に対して高信頼度スタイルのアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-07-21T01:17:31Z) - SLiC-HF: Sequence Likelihood Calibration with Human Feedback [35.74135968442311]
最近導入されたSequence Likelihood(SLiC)は、人間の嗜好から効果的に学習できることを示す。
TL;DR要約タスクの実験により、SLiC-HFは教師付き微調整ベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-05-17T17:57:10Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。