Fugu-MT 論文翻訳(概要): Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems

論文の概要: Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems

arxiv url: http://arxiv.org/abs/2307.12975v1
Date: Mon, 24 Jul 2023 17:50:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 13:11:56.774445
Title: Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems
Title（参考訳）: 文脈帯域問題における人選好からの政策学習の有益性
Authors: Xiang Ji, Huazheng Wang, Minshuo Chen, Tuo Zhao, Mengdi Wang
Abstract要約: オフラインの文脈的帯域幅における嗜好に基づく手法の利点を確実に示す理論を開発する。嗜好に基づく手法は、より低い最適性を享受することを示します。
参考スコア（独自算出の注目度）: 70.42239591866486
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A crucial task in decision-making problems is reward engineering. It is common in practice that no obvious choice of reward function exists. Thus, a popular approach is to introduce human feedback during training and leverage such feedback to learn a reward function. Among all policy learning methods that use human feedback, preference-based methods have demonstrated substantial success in recent empirical applications such as InstructGPT. In this work, we develop a theory that provably shows the benefits of preference-based methods in offline contextual bandits. In particular, we improve the modeling and suboptimality analysis for running policy learning methods on human-scored samples directly. Then, we compare it with the suboptimality guarantees of preference-based methods and show that preference-based methods enjoy lower suboptimality.
Abstract（参考訳）: 意思決定問題における重要なタスクは、報酬工学である。実際、報酬関数の明確な選択は存在しないことが一般的である。このように、トレーニング中に人間のフィードバックを導入し、そのようなフィードバックを活用して報酬関数を学習することが一般的なアプローチである。人的フィードバックを用いた政策学習手法の中で,instructgptのような最近の経験的応用において,嗜好ベースの手法が有意な成功を収めている。そこで本研究では,オフライン環境における嗜好に基づく手法の利点を実証的に示す理論を開発した。特に,本研究では,人文表を用いた政策学習手法のモデル化と準最適分析を改善した。そして、選好に基づく手法の準最適性保証と比較し、選好に基づく手法が低い準最適性を持つことを示す。

関連論文リスト

PB$^2$: Preference Space Exploration via Population-Based Methods in Preference-Based Reinforcement Learning [2.0373030742807545]
我々は、この選好探索問題を人口ベース手法を用いて同定し、解決する。多様なエージェントの個体数を維持することで、より包括的な選好環境の探索が可能になることを実証する。この多様性は、明らかに区別可能な振る舞いを持つ嗜好クエリを生成することにより、報酬モデル学習を改善する。
論文参考訳（メタデータ） (2025-06-16T17:51:33Z)
From Demonstrations to Rewards: Alignment Without Explicit Human Preferences [55.988923803469305]
本稿では,逆強化学習原理に基づく学習アライメントの新たな視点を提案する。大規模な選好データに頼る代わりに、デモデータから報酬モデルを直接学習する。
論文参考訳（メタデータ） (2025-03-15T20:53:46Z)
Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models [8.025808955214957]
本稿では,大規模言語モデルフィードバックによる強化学習の利点と限界について考察する。本稿では,フィードバックを潜在的形状関数として提案する,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2024-10-22T19:52:08Z)
Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文参考訳（メタデータ） (2024-06-17T03:51:46Z)
Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input [17.131441665935128]
より正確な報酬モデルを学ぶのに有用な例が好まれる理由について,より詳細なデータを抽出する方法を検討する。本研究は, 実用的特徴嗜好を取り入れることが, より効率的なユーザ適応型報酬学習に有望なアプローチであることが示唆された。
論文参考訳（メタデータ） (2024-05-23T16:36:16Z)
Towards Understanding the Influence of Reward Margin on Preference Model Performance [8.891183078634786]
本研究では,人間のアノテータからの詳細なラベルを必要とせず,好みの違いを推定する新しい手法を提案する。実験の結果,トレーニングプロセスにマージン値を組み込むことで,報酬モデルの有効性が著しく向上することを示す実証的証拠が得られた。
論文参考訳（メタデータ） (2024-04-07T12:10:04Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文参考訳（メタデータ） (2024-01-08T17:55:02Z)
Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration [29.935758027209292]
予測に基づくフィードバックは、強化学習における多くのアプリケーションにとって重要である。本研究は,人間のフィードバックを得るために文脈を選択することができるという事実を生かしている。提案手法は,複数のベースラインよりも人間の好みのサンプルが少ない場合に,より優れた性能が得られることを示す。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)
Kernelized Offline Contextual Dueling Bandits [15.646879026749168]
本研究では、エージェントが人間のフィードバックを得るためにコンテキストを選択することがしばしばあるという事実を活用する。我々は,この設定に対して高信頼度スタイルのアルゴリズムを提案し,後悔の束縛を証明した。
論文参考訳（メタデータ） (2023-07-21T01:17:31Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)
Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文参考訳（メタデータ） (2020-06-08T18:20:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。