論文の概要: Towards Hyperparameter-free Policy Selection for Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2110.14000v2
- Date: Thu, 28 Oct 2021 02:06:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 13:00:13.670670
- Title: Towards Hyperparameter-free Policy Selection for Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習のためのハイパーパラメータフリーポリシー選択に向けて
- Authors: Siyuan Zhang, Nan Jiang
- Abstract要約: オフライン強化学習において、異なるトレーニングアルゴリズムによって生成される価値関数とポリシーの選択方法を示す。
我々は,近年の値関数選択の理論的進歩であるBVFT[XJ21]を用いて,Atariなどの離散作用ベンチマークにおいて,その有効性を示す。
- 参考スコア(独自算出の注目度): 10.457660611114457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to select between policies and value functions produced by different
training algorithms in offline reinforcement learning (RL) -- which is crucial
for hyperpa-rameter tuning -- is an important open question. Existing
approaches based on off-policy evaluation (OPE) often require additional
function approximation and hence hyperparameters, creating a chicken-and-egg
situation. In this paper, we design hyperparameter-free algorithms for policy
selection based on BVFT [XJ21], a recent theoretical advance in value-function
selection, and demonstrate their effectiveness in discrete-action benchmarks
such as Atari. To address performance degradation due to poor critics in
continuous-action domains, we further combine BVFT with OPE to get the best of
both worlds, and obtain a hyperparameter-tuning method for Q-function based OPE
with theoretical guarantees as a side product.
- Abstract(参考訳): オフライン強化学習(RL)において、異なるトレーニングアルゴリズムが生み出すポリシーと価値関数をどのように選択するか -- ハイパーパレーメータチューニングに欠かせない -- は、重要なオープンな問題である。
既存のオフ・ポリシー・アセスメント(OPE)に基づくアプローチは、しばしば追加の関数近似とハイパーパラメータを必要とするため、ニワトリと卵の状況が生じる。
本稿では、近年の値関数選択の理論的進歩であるBVFT[XJ21]に基づく政策選択のためのハイパーパラメータフリーアルゴリズムを設計し、アタリなどの離散作用ベンチマークにおいてその効果を実証する。
連続作用領域における批判の欠如による性能劣化に対処するため,BVFT と OPE を併用して両世界の長所を得るとともに,Q関数に基づく OPE のハイパーパラメータチューニング法を理論的に保証する。
関連論文リスト
- On the consistency of hyper-parameter selection in value-based deep reinforcement learning [13.133865673667394]
本稿では,値に基づく深層強化学習エージェントのハイパーパラメータ選択の信頼性に着目した実証的研究を行う。
我々の研究は、どのハイパーパラメーターがチューニングに最も重要かを確立するのに役立ち、どのチューニングが異なるトレーニング体制間で一貫性を持ち続けるかを明らかにするのに役立ちます。
論文 参考訳(メタデータ) (2024-06-25T13:06:09Z) - Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。
VPOは、報酬関数の最大値推定を対応する値関数で正規化する。
テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文 参考訳(メタデータ) (2024-05-29T17:51:42Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - A Theoretical Framework of Almost Hyperparameter-free Hyperparameter
Selection Methods for Offline Policy Evaluation [2.741266294612776]
オフライン強化学習(OPE)は、環境シミュレーターを使わずに、データ駆動型決定最適化のための中核技術である。
最適性(選択基準と呼ばれる)の概念を定量的かつ解釈可能な方法で定義するOPEのための近似ハイパーパラメータ選択フレームワークを提案する。
収束率や時間複雑性などの異なる特徴を持つ4つのAHS法を導出する。
論文 参考訳(メタデータ) (2022-01-07T02:23:09Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Hyperparameter Selection for Offline Reinforcement Learning [61.92834684647419]
オフライン強化学習(RLは、ログ化されたデータから純粋なもの)は、実世界のシナリオにRLテクニックをデプロイするための重要な道である。
既存のオフラインRLのためのハイパーパラメータ選択法は、オフライン仮定を破る。
論文 参考訳(メタデータ) (2020-07-17T15:30:38Z) - Online Hyper-parameter Tuning in Off-policy Learning via Evolutionary
Strategies [41.13416324282365]
本稿では,進化的戦略のオンライン・ハイパーパラメータ・チューニングへの応用をオフ政治学習に適用するフレームワークを提案する。
我々の定式化はメタ・グラディエントに密接なつながりを持ち、比較的低次元の探索空間を持つブラックボックス最適化の強みを利用する。
論文 参考訳(メタデータ) (2020-06-13T03:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。