論文の概要: Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems
- arxiv url: http://arxiv.org/abs/2307.12975v1
- Date: Mon, 24 Jul 2023 17:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 13:11:56.774445
- Title: Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems
- Title(参考訳): 文脈帯域問題における人選好からの政策学習の有益性
- Authors: Xiang Ji, Huazheng Wang, Minshuo Chen, Tuo Zhao, Mengdi Wang
- Abstract要約: オフラインの文脈的帯域幅における嗜好に基づく手法の利点を確実に示す理論を開発する。
嗜好に基づく手法は、より低い最適性を享受することを示します。
- 参考スコア(独自算出の注目度): 70.42239591866486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A crucial task in decision-making problems is reward engineering. It is
common in practice that no obvious choice of reward function exists. Thus, a
popular approach is to introduce human feedback during training and leverage
such feedback to learn a reward function. Among all policy learning methods
that use human feedback, preference-based methods have demonstrated substantial
success in recent empirical applications such as InstructGPT. In this work, we
develop a theory that provably shows the benefits of preference-based methods
in offline contextual bandits. In particular, we improve the modeling and
suboptimality analysis for running policy learning methods on human-scored
samples directly. Then, we compare it with the suboptimality guarantees of
preference-based methods and show that preference-based methods enjoy lower
suboptimality.
- Abstract(参考訳): 意思決定問題における重要なタスクは、報酬工学である。
実際、報酬関数の明確な選択は存在しないことが一般的である。
このように、トレーニング中に人間のフィードバックを導入し、そのようなフィードバックを活用して報酬関数を学習することが一般的なアプローチである。
人的フィードバックを用いた政策学習手法の中で,instructgptのような最近の経験的応用において,嗜好ベースの手法が有意な成功を収めている。
そこで本研究では,オフライン環境における嗜好に基づく手法の利点を実証的に示す理論を開発した。
特に,本研究では,人文表を用いた政策学習手法のモデル化と準最適分析を改善した。
そして、選好に基づく手法の準最適性保証と比較し、選好に基づく手法が低い準最適性を持つことを示す。
関連論文リスト
- Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models [8.025808955214957]
本稿では,大規模言語モデルフィードバックによる強化学習の利点と限界について考察する。
本稿では,フィードバックを潜在的形状関数として提案する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-22T19:52:08Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Towards Understanding the Influence of Reward Margin on Preference Model Performance [8.891183078634786]
本研究では,人間のアノテータからの詳細なラベルを必要とせず,好みの違いを推定する新しい手法を提案する。
実験の結果,トレーニングプロセスにマージン値を組み込むことで,報酬モデルの有効性が著しく向上することを示す実証的証拠が得られた。
論文 参考訳(メタデータ) (2024-04-07T12:10:04Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Sample Efficient Reinforcement Learning from Human Feedback via Active
Exploration [29.935758027209292]
予測に基づくフィードバックは、強化学習における多くのアプリケーションにとって重要である。
本研究は,人間のフィードバックを得るために文脈を選択することができるという事実を生かしている。
提案手法は,複数のベースラインよりも人間の好みのサンプルが少ない場合に,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - Kernelized Offline Contextual Dueling Bandits [15.646879026749168]
本研究では、エージェントが人間のフィードバックを得るためにコンテキストを選択することがしばしばあるという事実を活用する。
我々は,この設定に対して高信頼度スタイルのアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-07-21T01:17:31Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。