論文の概要: The Cross-environment Hyperparameter Setting Benchmark for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.18840v1
- Date: Fri, 26 Jul 2024 16:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 12:59:26.349755
- Title: The Cross-environment Hyperparameter Setting Benchmark for Reinforcement Learning
- Title(参考訳): 強化学習のためのクロス環境ハイパーパラメータ設定ベンチマーク
- Authors: Andrew Patterson, Samuel Neumann, Raksha Kumaraswamy, Martha White, Adam White,
- Abstract要約: 本稿では,新しい経験的手法であるクロス環境ハイパーパラメータ設定ベンチマークを提案する。
このベンチマークは統計的雑音に対して頑健であり、繰り返しアプリケーション間で定性的に類似した結果が得られることを示す。
DDPGアルゴリズムを用いた探索において,Ornstein-Uhlenbeckノイズと非相関なガウスノイズとの間に有意な差はないことを示す。
- 参考スコア(独自算出の注目度): 23.753382949334906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new empirical methodology, the Cross-environment Hyperparameter Setting Benchmark, that compares RL algorithms across environments using a single hyperparameter setting, encouraging algorithmic development which is insensitive to hyperparameters. We demonstrate that this benchmark is robust to statistical noise and obtains qualitatively similar results across repeated applications, even when using few samples. This robustness makes the benchmark computationally cheap to apply, allowing statistically sound insights at low cost. We demonstrate two example instantiations of the CHS, on a set of six small control environments (SC-CHS) and on the entire DM Control suite of 28 environments (DMC-CHS). Finally, to illustrate the applicability of the CHS to modern RL algorithms on challenging environments, we conduct a novel empirical study of an open question in the continuous control literature. We show, with high confidence, that there is no meaningful difference in performance between Ornstein-Uhlenbeck noise and uncorrelated Gaussian noise for exploration with the DDPG algorithm on the DMC-CHS.
- Abstract(参考訳): 本稿では、単一ハイパーパラメータ設定を用いて環境間のRLアルゴリズムを比較し、ハイパーパラメータに敏感なアルゴリズム開発を促進する、新しい経験的手法であるクロス環境ハイパーパラメータ設定ベンチマークを提案する。
このベンチマークは統計的ノイズに対して頑健であり、サンプルが少ない場合でも繰り返しアプリケーション間で定性的に類似した結果が得られることを示す。
このロバスト性により、ベンチマークを計算的に安価に適用でき、統計的に低いコストで洞察を得られる。
6つの小さな制御環境 (SC-CHS) と, DM制御スイート全体 (DMC-CHS) の2つの例を示す。
最後に,最新のRLアルゴリズムに対するCHSの適用性を示すために,連続制御文学におけるオープンな問題に関する新しい実証的研究を行った。
DMC-CHSにおけるDDPGアルゴリズムを用いた探索において,Ornstein-Uhlenbeckノイズと非相関ガウスノイズとの間に有意な差はないことを示す。
関連論文リスト
- Certifiably Robust Policies for Uncertain Parametric Environments [57.2416302384766]
本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。
パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。
当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。
論文 参考訳(メタデータ) (2024-08-06T10:48:15Z) - ChaosMining: A Benchmark to Evaluate Post-Hoc Local Attribution Methods in Low SNR Environments [14.284728947052743]
本研究では,低信号-雑音比(SNR)を特徴とする領域において,非関連領域から予測力のある特徴を識別するためのポストホック局所帰属法の有効性を検討する。
我々の実験では、スケーラビリティの制限とともに、予測と特徴選択の長所を強調しています。
論文 参考訳(メタデータ) (2024-06-17T23:39:29Z) - Parameter optimization comparison in QAOA using Stochastic Hill Climbing with Random Re-starts and Local Search with entangled and non-entangled mixing operators [0.0]
本研究では,Hill Climbing with Random Restarts (SHC-RR) の有効性を検討した。
以上の結果から,SHC-RRはLSアプローチよりも優れており,より単純な最適化機構にもかかわらず優れた有効性を示した。
論文 参考訳(メタデータ) (2024-05-14T20:12:17Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Optimal distributed multiparameter estimation in noisy environments [0.3093890460224435]
ノイズ非感受性戦略の発見と改善方法について検討する。
GHZ状態の逐次探索は, 最大4。
論文 参考訳(メタデータ) (2023-06-01T18:32:53Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Stochastic Gradient MCMC with Multi-Armed Bandit Tuning [2.2559617939136505]
本稿では,SGMCMCハイパーパラメータを調整し,後部近似の精度を最大化するバンディットに基づく新しいアルゴリズムを提案する。
シミュレーションと実データの両方で実験を行い,本手法が広範囲の応用分野に適用可能であることを確認した。
論文 参考訳(メタデータ) (2021-05-27T11:00:31Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - An Asymptotically Optimal Multi-Armed Bandit Algorithm and
Hyperparameter Optimization [48.5614138038673]
本稿では,高パラメータ探索評価のシナリオにおいて,SS (Sub-Sampling) と呼ばれる効率的で堅牢な帯域幅に基づくアルゴリズムを提案する。
また,BOSSと呼ばれる新しいパラメータ最適化アルゴリズムを開発した。
実験的な研究は、SSの理論的議論を検証し、多くのアプリケーションにおけるBOSSの優れた性能を実証する。
論文 参考訳(メタデータ) (2020-07-11T03:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。