論文の概要: Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems
- arxiv url: http://arxiv.org/abs/2307.12975v1
- Date: Mon, 24 Jul 2023 17:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 13:11:56.774445
- Title: Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems
- Title(参考訳): 文脈帯域問題における人選好からの政策学習の有益性
- Authors: Xiang Ji, Huazheng Wang, Minshuo Chen, Tuo Zhao, Mengdi Wang
- Abstract要約: オフラインの文脈的帯域幅における嗜好に基づく手法の利点を確実に示す理論を開発する。
嗜好に基づく手法は、より低い最適性を享受することを示します。
- 参考スコア(独自算出の注目度): 70.42239591866486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A crucial task in decision-making problems is reward engineering. It is
common in practice that no obvious choice of reward function exists. Thus, a
popular approach is to introduce human feedback during training and leverage
such feedback to learn a reward function. Among all policy learning methods
that use human feedback, preference-based methods have demonstrated substantial
success in recent empirical applications such as InstructGPT. In this work, we
develop a theory that provably shows the benefits of preference-based methods
in offline contextual bandits. In particular, we improve the modeling and
suboptimality analysis for running policy learning methods on human-scored
samples directly. Then, we compare it with the suboptimality guarantees of
preference-based methods and show that preference-based methods enjoy lower
suboptimality.
- Abstract(参考訳): 意思決定問題における重要なタスクは、報酬工学である。
実際、報酬関数の明確な選択は存在しないことが一般的である。
このように、トレーニング中に人間のフィードバックを導入し、そのようなフィードバックを活用して報酬関数を学習することが一般的なアプローチである。
人的フィードバックを用いた政策学習手法の中で,instructgptのような最近の経験的応用において,嗜好ベースの手法が有意な成功を収めている。
そこで本研究では,オフライン環境における嗜好に基づく手法の利点を実証的に示す理論を開発した。
特に,本研究では,人文表を用いた政策学習手法のモデル化と準最適分析を改善した。
そして、選好に基づく手法の準最適性保証と比較し、選好に基づく手法が低い準最適性を持つことを示す。
関連論文リスト
- Principled RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [23.337350061258903]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Towards Understanding the Influence of Reward Margin on Preference Model Performance [8.891183078634786]
本研究では,人間のアノテータからの詳細なラベルを必要とせず,好みの違いを推定する新しい手法を提案する。
実験の結果,トレーニングプロセスにマージン値を組み込むことで,報酬モデルの有効性が著しく向上することを示す実証的証拠が得られた。
論文 参考訳(メタデータ) (2024-04-07T12:10:04Z) - Aligning Large Language Models by On-Policy Self-Judgment [52.25915009010184]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行い,パラメータ効率の高いアライメントフレームワーク,メソッドを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [53.05529717075474]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
一連の継続的制御タスクにおいて、報酬ベースのアプローチよりもはるかに効率的に学習できることを実証します。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Sample Efficient Reinforcement Learning from Human Feedback via Active
Exploration [29.935758027209292]
予測に基づくフィードバックは、強化学習における多くのアプリケーションにとって重要である。
本研究は,人間のフィードバックを得るために文脈を選択することができるという事実を生かしている。
提案手法は,複数のベースラインよりも人間の好みのサンプルが少ない場合に,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - Kernelized Offline Contextual Dueling Bandits [15.646879026749168]
本研究では、エージェントが人間のフィードバックを得るためにコンテキストを選択することがしばしばあるという事実を活用する。
我々は,この設定に対して高信頼度スタイルのアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-07-21T01:17:31Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。