論文の概要: Reward Learning as Doubly Nonparametric Bandits: Optimal Design and
Scaling Laws
- arxiv url: http://arxiv.org/abs/2302.12349v1
- Date: Thu, 23 Feb 2023 22:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 15:09:15.943628
- Title: Reward Learning as Doubly Nonparametric Bandits: Optimal Design and
Scaling Laws
- Title(参考訳): 二重非パラメトリック帯域としてのリワード学習 : 最適設計とスケーリング法則
- Authors: Kush Bhatia, Wenshuo Guo, Jacob Steinhardt
- Abstract要約: 本稿では、報酬学習と関連する最適実験設計問題を研究するための理論的枠組みを提案する。
まず、リッジ回帰に基づく単純なプラグイン推定器の非漸近的過剰リスク境界を導出する。
次に、クエリセットの選択に関してこれらのリスク境界を最適化し、有限サンプル統計率を得ることにより、クエリ設計問題を解決する。
- 参考スコア(独自算出の注目度): 22.099915149343957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Specifying reward functions for complex tasks like object manipulation or
driving is challenging to do by hand. Reward learning seeks to address this by
learning a reward model using human feedback on selected query policies. This
shifts the burden of reward specification to the optimal design of the queries.
We propose a theoretical framework for studying reward learning and the
associated optimal experiment design problem. Our framework models rewards and
policies as nonparametric functions belonging to subsets of Reproducing Kernel
Hilbert Spaces (RKHSs). The learner receives (noisy) oracle access to a true
reward and must output a policy that performs well under the true reward. For
this setting, we first derive non-asymptotic excess risk bounds for a simple
plug-in estimator based on ridge regression. We then solve the query design
problem by optimizing these risk bounds with respect to the choice of query set
and obtain a finite sample statistical rate, which depends primarily on the
eigenvalue spectrum of a certain linear operator on the RKHSs. Despite the
generality of these results, our bounds are stronger than previous bounds
developed for more specialized problems. We specifically show that the
well-studied problem of Gaussian process (GP) bandit optimization is a special
case of our framework, and that our bounds either improve or are competitive
with known regret guarantees for the Mat\'ern kernel.
- Abstract(参考訳): オブジェクト操作や運転といった複雑なタスクに対する報酬関数の指定は、手作業で難しい。
報酬学習は、選択したクエリポリシーに対する人間のフィードバックを使って報酬モデルを学ぶことによって、この問題に対処しようとする。
これにより、報酬仕様の負担をクエリの最適な設計にシフトする。
本稿では,報酬学習と関連する最適実験設計問題を研究するための理論的枠組みを提案する。
我々のフレームワークは、再生カーネルヒルベルト空間(RKHS)のサブセットに属する非パラメトリック関数として報酬とポリシーをモデル化する。
学習者はoracleの真の報酬へのアクセスを受け取り、真の報酬の下でうまく機能するポリシーを出力しなければならない。
この設定のために、まずリッジ回帰に基づく単純なプラグイン推定器の非漸近的過剰リスク境界を導出する。
次に,問合せ集合の選択に関してこれらのリスク境界を最適化し,rkhss上のある線形作用素の固有値スペクトルに依存する有限サンプル統計率を求めることにより,問合せ設計問題を解く。
これらの結果の一般性にもかかわらず、我々の境界はより専門的な問題のために開発された以前の境界よりも強い。
具体的には,ガウス過程(GP)バンディット最適化の問題が,我々のフレームワークの特別な場合であり,我々の限界がMate\'ernカーネルの既知の後悔の保証と整合していることを示す。
関連論文リスト
- Exploration in Model-based Reinforcement Learning with Randomized Reward [40.87376174638752]
我々は、カーネル化線形レギュレータ(KNR)モデルの下では、報酬ランダム化が部分的最適化を保証することを示す。
さらに、我々の理論を一般化関数近似に拡張し、報酬ランダム化の条件を特定して、確実に効率的に探索する。
論文 参考訳(メタデータ) (2023-01-09T01:50:55Z) - Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - On Kernelized Multi-Armed Bandits with Constraints [16.102401271318012]
一般に未知の報酬関数と一般未知の制約関数を併用した帯域幅問題について検討する。
本稿では,アルゴリズムの性能解析のための一般的なフレームワークを提案する。
本稿では,数値実験により提案アルゴリズムの優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-29T14:02:03Z) - Meta-Learning Hypothesis Spaces for Sequential Decision-making [79.73213540203389]
オフラインデータ(Meta-KeL)からカーネルをメタ学習することを提案する。
穏やかな条件下では、推定されたRKHSが有効な信頼セットを得られることを保証します。
また,ベイズ最適化におけるアプローチの有効性を実証的に評価した。
論文 参考訳(メタデータ) (2022-02-01T17:46:51Z) - Risk-Aware Algorithms for Combinatorial Semi-Bandits [7.716156977428555]
半帯域フィードバック下でのマルチアームバンディット問題について検討する。
本稿では,最悪の場合の報酬のみを考慮したリスク尺度であるCVaR(Conditional Value-at-Risk)の最大化の問題を検討する。
本稿では,バンディットのスーパーアームから得られる報酬のCVaRを最大化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-02T11:29:43Z) - Learning Long-Term Reward Redistribution via Randomized Return
Decomposition [18.47810850195995]
軌跡フィードバックを用いたエピソード強化学習の問題点について考察する。
これは、エージェントが各軌道の終端で1つの報酬信号しか取得できないような、報酬信号の極端な遅延を指す。
本稿では,代償再分配アルゴリズムであるランダムリターン分解(RRD)を提案する。
論文 参考訳(メタデータ) (2021-11-26T13:23:36Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z) - Constrained Upper Confidence Reinforcement Learning [12.919486518128734]
本稿では,報酬関数とコスト関数によって記述される制約が事前に不明な設定に対する高信頼強化学習を拡張した。
我々は,アルゴリズムC-UCRLが,確率1-delta$で学習しながらも,制約を満たすことなく,報酬に対するサブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2020-01-26T00:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。