論文の概要: A Theoretical Framework of Almost Hyperparameter-free Hyperparameter
Selection Methods for Offline Policy Evaluation
- arxiv url: http://arxiv.org/abs/2201.02300v1
- Date: Fri, 7 Jan 2022 02:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-10 14:25:09.841341
- Title: A Theoretical Framework of Almost Hyperparameter-free Hyperparameter
Selection Methods for Offline Policy Evaluation
- Title(参考訳): オフライン政策評価のための準ハイパーパラメータフリーハイパーパラメータ選択法の理論的枠組み
- Authors: Kohei Miyaguchi
- Abstract要約: オフライン強化学習(OPE)は、環境シミュレーターを使わずに、データ駆動型決定最適化のための中核技術である。
最適性(選択基準と呼ばれる)の概念を定量的かつ解釈可能な方法で定義するOPEのための近似ハイパーパラメータ選択フレームワークを提案する。
収束率や時間複雑性などの異なる特徴を持つ4つのAHS法を導出する。
- 参考スコア(独自算出の注目度): 2.741266294612776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are concerned with the problem of hyperparameter selection of offline
policy evaluation (OPE). OPE is a key component of offline reinforcement
learning, which is a core technology for data-driven decision optimization
without environment simulators. However, the current state-of-the-art OPE
methods are not hyperparameter-free, which undermines their utility in
real-life applications. We address this issue by introducing a new approximate
hyperparameter selection (AHS) framework for OPE, which defines a notion of
optimality (called selection criteria) in a quantitative and interpretable
manner without hyperparameters. We then derive four AHS methods each of which
has different characteristics such as convergence rate and time complexity.
Finally, we verify effectiveness and limitation of these methods with a
preliminary experiment.
- Abstract(参考訳): 我々は,オフライン政策評価(OPE)のハイパーパラメータ選択の問題に関心がある。
OPEはオフライン強化学習の鍵となる要素であり、環境シミュレータを使わずにデータ駆動型決定最適化のコア技術である。
しかし、現在の最先端のOPE法はハイパーパラメータフリーではないため、現実のアプリケーションでは実用性が損なわれている。
この問題に対処するために, OPE のための新しい近似ハイパーパラメータ選択(AHS)フレームワークを導入し, 最適性(選択基準と呼ばれる)の概念をハイパーパラメータなしで定量的かつ解釈可能な方法で定義する。
次に、収束率や時間複雑性などの異なる特徴を持つ4つのAHS法を導出する。
最後に,本手法の有効性と限界を予備実験により検証する。
関連論文リスト
- Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - No More Pesky Hyperparameters: Offline Hyperparameter Tuning for RL [28.31529154045046]
オフラインデータのログからハイパーパラメータをチューニングするための新しい手法を提案する。
まず, キャリブレーションモデルと呼ばれるオフラインデータから環境モデルを学び, キャリブレーションモデルにおける学習をシミュレートする。
我々は,その方法が有効でいつ失敗するかを,様々な設定で実証的に調べる。
論文 参考訳(メタデータ) (2022-05-18T04:26:23Z) - The Role of Adaptive Optimizers for Honest Private Hyperparameter
Selection [12.38071940409141]
標準合成ツールは、多くの設定において、より高度な技術よりも優れていることを示す。
我々は、新しいより効率的なツールを設計するために、DP設定におけるAdamの制限的な振る舞いを描きます。
論文 参考訳(メタデータ) (2021-11-09T01:56:56Z) - Towards Hyperparameter-free Policy Selection for Offline Reinforcement
Learning [10.457660611114457]
オフライン強化学習において、異なるトレーニングアルゴリズムによって生成される価値関数とポリシーの選択方法を示す。
我々は,近年の値関数選択の理論的進歩であるBVFT[XJ21]を用いて,Atariなどの離散作用ベンチマークにおいて,その有効性を示す。
論文 参考訳(メタデータ) (2021-10-26T20:12:11Z) - Online Hyperparameter Meta-Learning with Hypergradient Distillation [59.973770725729636]
勾配に基づくメタラーニング法は、内部最適化に関与しないパラメータのセットを仮定する。
知識蒸留による2次項の近似により,これらの限界を克服できる新しいHO法を提案する。
論文 参考訳(メタデータ) (2021-10-06T05:14:53Z) - Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。
具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。
次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文 参考訳(メタデータ) (2021-02-17T21:03:05Z) - Hyperparameter Selection for Offline Reinforcement Learning [61.92834684647419]
オフライン強化学習(RLは、ログ化されたデータから純粋なもの)は、実世界のシナリオにRLテクニックをデプロイするための重要な道である。
既存のオフラインRLのためのハイパーパラメータ選択法は、オフライン仮定を破る。
論文 参考訳(メタデータ) (2020-07-17T15:30:38Z) - Online Hyper-parameter Tuning in Off-policy Learning via Evolutionary
Strategies [41.13416324282365]
本稿では,進化的戦略のオンライン・ハイパーパラメータ・チューニングへの応用をオフ政治学習に適用するフレームワークを提案する。
我々の定式化はメタ・グラディエントに密接なつながりを持ち、比較的低次元の探索空間を持つブラックボックス最適化の強みを利用する。
論文 参考訳(メタデータ) (2020-06-13T03:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。