論文の概要: Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.15078v1
- Date: Thu, 29 Sep 2022 19:57:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 16:35:28.896173
- Title: Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in
Reinforcement Learning
- Title(参考訳): 強化学習におけるハイパーパラメータ調整のためのオンライン重み付きQアンサンブル
- Authors: Renata Garcia and Wouter Caarls
- Abstract要約: 強化学習はロボット制御を学ぶための有望なパラダイムであり、ダイナミックスモデルを必要とせずに複雑な制御ポリシーを学習することができる。
本稿では,複数の強化学習エージェントのアンサンブルを用いて,それぞれ異なるパラメータの集合と,最適な演奏セットを選択するメカニズムを提案する。
オンライン重み付きQ-アンサンブルは,q平均アンサンブルと比較した場合,全体の低分散と優れた結果を示した。
- 参考スコア(独自算出の注目度): 0.38073142980732994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning is a promising paradigm for learning robot control,
allowing complex control policies to be learned without requiring a dynamics
model. However, even state of the art algorithms can be difficult to tune for
optimum performance. We propose employing an ensemble of multiple reinforcement
learning agents, each with a different set of hyperparameters, along with a
mechanism for choosing the best performing set(s) on-line. In the literature,
the ensemble technique is used to improve performance in general, but the
current work specifically addresses decreasing the hyperparameter tuning
effort. Furthermore, our approach targets on-line learning on a single robotic
system, and does not require running multiple simulators in parallel. Although
the idea is generic, the Deep Deterministic Policy Gradient was the model
chosen, being a representative deep learning actor-critic method with good
performance in continuous action settings but known high variance. We compare
our online weighted q-ensemble approach to q-average ensemble strategies
addressed in literature using alternate policy training, as well as online
training, demonstrating the advantage of the new approach in eliminating
hyperparameter tuning. The applicability to real-world systems was validated in
common robotic benchmark environments: the bipedal robot half cheetah and the
swimmer. Online Weighted Q-Ensemble presented overall lower variance and
superior results when compared with q-average ensembles using randomized
parameterizations.
- Abstract(参考訳): 強化学習はロボット制御を学習するための有望なパラダイムであり、複雑な制御ポリシーをダイナミクスモデルを必要とせずに学習することができる。
しかし,最先端のアルゴリズムでも最適性能を調整することは困難である。
本稿では,複数の強化学習エージェントのアンサンブルを用いて,異なるハイパーパラメータのセットと,最高の実行セットをオンラインで選択するためのメカニズムを提案する。
文献では、アンサンブル技術は一般に性能向上に使用されるが、現在の研究はハイパーパラメータチューニングの労力の削減に特化している。
さらに,1つのロボットシステム上でのオンライン学習を目標としており,複数のシミュレータを並列に実行する必要はない。
この考え方は一般的なものだが、Deep Deterministic Policy Gradientが選択されたモデルであり、連続的なアクション設定では優れたパフォーマンスを持つが、高分散が知られている深層学習アクター批判的手法である。
オンラインの重み付けq-ensembleアプローチと,文献におけるq平均アンサンブル戦略を比較し,ハイパーパラメータチューニング除去における新たなアプローチの利点を実証した。
実世界のシステムへの適用性は、二足歩行ロボットのハーフチーターとスイマーという、一般的なロボットベンチマーク環境で検証された。
オンライン重み付きq-ensembleは、ランダムパラメータ化を用いたq平均アンサンブルと比較して、全体的な低い分散と優れた結果を示した。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - No More Pesky Hyperparameters: Offline Hyperparameter Tuning for RL [28.31529154045046]
オフラインデータのログからハイパーパラメータをチューニングするための新しい手法を提案する。
まず, キャリブレーションモデルと呼ばれるオフラインデータから環境モデルを学び, キャリブレーションモデルにおける学習をシミュレートする。
我々は,その方法が有効でいつ失敗するかを,様々な設定で実証的に調べる。
論文 参考訳(メタデータ) (2022-05-18T04:26:23Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z) - Scalable One-Pass Optimisation of High-Dimensional Weight-Update
Hyperparameters by Implicit Differentiation [0.0]
近似的過勾配型ハイパーパラメータオプティマイザを開発した。
トレーニングは1回のみであり、再スタートは行わない。
また、真の過次性への収束を動機づける議論も提供する。
論文 参考訳(メタデータ) (2021-10-20T09:57:57Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Hyperparameter Auto-tuning in Self-Supervised Robotic Learning [12.193817049957733]
不十分な学習(局所最適収束による)は、冗長な学習が時間と資源を浪費する一方で、低パフォーマンスの政策をもたらす。
自己教師付き強化学習のためのエビデンス下界(ELBO)に基づく自動チューニング手法を提案する。
本手法は,オンラインで自動チューニングが可能であり,計算資源のごく一部で最高の性能が得られる。
論文 参考訳(メタデータ) (2020-10-16T08:58:24Z) - Online Hyper-parameter Tuning in Off-policy Learning via Evolutionary
Strategies [41.13416324282365]
本稿では,進化的戦略のオンライン・ハイパーパラメータ・チューニングへの応用をオフ政治学習に適用するフレームワークを提案する。
我々の定式化はメタ・グラディエントに密接なつながりを持ち、比較的低次元の探索空間を持つブラックボックス最適化の強みを利用する。
論文 参考訳(メタデータ) (2020-06-13T03:54:26Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。