論文の概要: Exploration in Model-based Reinforcement Learning with Randomized Reward
- arxiv url: http://arxiv.org/abs/2301.03142v1
- Date: Mon, 9 Jan 2023 01:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 16:06:00.783651
- Title: Exploration in Model-based Reinforcement Learning with Randomized Reward
- Title(参考訳): ランダム報酬を用いたモデルベース強化学習の探索
- Authors: Lingxiao Wang and Ping Li
- Abstract要約: 我々は、カーネル化線形レギュレータ(KNR)モデルの下では、報酬ランダム化が部分的最適化を保証することを示す。
さらに、我々の理論を一般化関数近似に拡張し、報酬ランダム化の条件を特定して、確実に効率的に探索する。
- 参考スコア(独自算出の注目度): 40.87376174638752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based Reinforcement Learning (MBRL) has been widely adapted due to its
sample efficiency. However, existing worst-case regret analysis typically
requires optimistic planning, which is not realistic in general. In contrast,
motivated by the theory, empirical study utilizes ensemble of models, which
achieve state-of-the-art performance on various testing environments. Such
deviation between theory and empirical study leads us to question whether
randomized model ensemble guarantee optimism, and hence the optimal worst-case
regret? This paper partially answers such question from the perspective of
reward randomization, a scarcely explored direction of exploration with MBRL.
We show that under the kernelized linear regulator (KNR) model, reward
randomization guarantees a partial optimism, which further yields a
near-optimal worst-case regret in terms of the number of interactions. We
further extend our theory to generalized function approximation and identified
conditions for reward randomization to attain provably efficient exploration.
Correspondingly, we propose concrete examples of efficient reward
randomization. To the best of our knowledge, our analysis establishes the first
worst-case regret analysis on randomized MBRL with function approximation.
- Abstract(参考訳): モデルベース強化学習(MBRL)はそのサンプル効率のために広く適用されている。
しかし、既存の最悪の後悔分析では概して楽観的な計画が必要であり、概して現実的ではない。
対照的に、この理論に動機づけられた実証的な研究は、様々なテスト環境で最先端のパフォーマンスを達成するモデルのアンサンブルを利用する。
このような理論と経験的研究の偏りは、ランダム化されたモデルアンサンブルが楽観主義を保証しているかどうかを疑問にさせる。
本稿は,MBRLによる探索の方向である報酬ランダム化の観点から,このような疑問に部分的に答える。
我々は、カーネル化された線形レギュレータ(KNR)モデルの下では、報酬ランダム化は部分的な楽観主義を保証し、相互作用の数の観点からは、ほぼ最適に近い最悪の後悔をもたらすことを示す。
さらに,この理論を一般化関数近似に拡張し,報酬ランダム化条件を同定し,効率的な探索を実現する。
そこで本研究では,効率的な報酬ランダム化の具体例を提案する。
我々の知る限りでは、関数近似を用いたランダム化mbrlの最悪の場合の後悔分析を初めて確立する。
関連論文リスト
- Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases [76.9127853906115]
拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。
本稿では,拡散モデルの時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。
実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
論文 参考訳(メタデータ) (2024-02-13T15:55:41Z) - Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。
ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。
実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文 参考訳(メタデータ) (2024-01-28T21:19:15Z) - High Precision Causal Model Evaluation with Conditional Randomization [10.23470075454725]
因果誤差を推定するための新しい低分散推定器(ペア推定器)を提案する。
モデルと真の実験効果の両方に同じIPW推定器を適用することにより、IPWによる分散を効果的にキャンセルし、より小さな分散を実現する。
提案手法は,IPW推定器自体の複雑な変更を伴わずに,条件付きランダム化設定における因果推論モデルを評価するための,単純かつ強力な解を提供する。
論文 参考訳(メタデータ) (2023-11-03T13:22:27Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Understanding the stochastic dynamics of sequential decision-making
processes: A path-integral analysis of multi-armed bandits [7.05949591248206]
マルチアームバンディットモデル(MAB)は、不確実な環境で意思決定を研究する最も一般的なモデルの一つである。
本稿では,MABモデルの解析に統計物理学の手法を用いる。
論文 参考訳(メタデータ) (2022-08-11T09:32:03Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Refined bounds for randomized experimental design [7.899055512130904]
実験的な設計は与えられた基準のための最もよい推定器を得るために与えられたセット間のサンプルを選ぶためのアプローチです。
EおよびG最適化設計におけるランダム化戦略の理論的保証を提案する。
論文 参考訳(メタデータ) (2020-12-22T20:37:57Z) - Robust Sampling in Deep Learning [62.997667081978825]
ディープラーニングは、オーバーフィッティングを減らし、一般化を改善するために正規化メカニズムを必要とする。
分散ロバスト最適化に基づく新しい正規化手法によりこの問題に対処する。
トレーニング中は、最悪のサンプルが最適化に最も貢献するものであるように、その正確性に応じてサンプルの選択が行われる。
論文 参考訳(メタデータ) (2020-06-04T09:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。