論文の概要: Reducing the Cost of Cycle-Time Tuning for Real-World Policy
Optimization
- arxiv url: http://arxiv.org/abs/2305.05760v2
- Date: Wed, 31 May 2023 18:37:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 23:24:28.450076
- Title: Reducing the Cost of Cycle-Time Tuning for Real-World Policy
Optimization
- Title(参考訳): 実世界政策最適化のためのサイクル調整のコスト削減
- Authors: Homayoon Farrahi and A. Rupam Mahmood
- Abstract要約: 継続的強化学習タスクは、通常、アクションに固定サイクルタイムの離散的なステップを使用する。
実践者は与えられたタスクのアクションサイクル時間を選択する必要があるため、学習アルゴリズムのハイパーパラメータがサイクル時間の選択毎に再調整される必要があるかどうかが重要な懸念事項である。
- 参考スコア(独自算出の注目度): 2.66512000865131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous-time reinforcement learning tasks commonly use discrete steps of
fixed cycle times for actions. As practitioners need to choose the action-cycle
time for a given task, a significant concern is whether the hyper-parameters of
the learning algorithm need to be re-tuned for each choice of the cycle time,
which is prohibitive for real-world robotics. In this work, we investigate the
widely-used baseline hyper-parameter values of two policy gradient algorithms
-- PPO and SAC -- across different cycle times. Using a benchmark task where
the baseline hyper-parameters of both algorithms were shown to work well, we
reveal that when a cycle time different than the task default is chosen, PPO
with baseline hyper-parameters fails to learn. Moreover, both PPO and SAC with
their baseline hyper-parameters perform substantially worse than their tuned
values for each cycle time. We propose novel approaches for setting these
hyper-parameters based on the cycle time. In our experiments on simulated and
real-world robotic tasks, the proposed approaches performed at least as well as
the baseline hyper-parameters, with significantly better performance for most
choices of the cycle time, and did not result in learning failure for any cycle
time. Hyper-parameter tuning still remains a significant barrier for real-world
robotics, as our approaches require some initial tuning on a new task, even
though it is negligible compared to an extensive tuning for each cycle time.
Our approach requires no additional tuning after the cycle time is changed for
a given task and is a step toward avoiding extensive and costly hyper-parameter
tuning for real-world policy optimization.
- Abstract(参考訳): 継続的強化学習タスクは一般的に、アクションに固定サイクル時間の離散的なステップを使用する。
実践者は与えられたタスクのアクションサイクル時間を選択する必要があるため、学習アルゴリズムのハイパーパラメータが現実世界のロボティクスでは禁止されているサイクル時間の選択ごとに再調整する必要があるかどうかが重要な懸念事項である。
本研究では,2つのポリシー勾配アルゴリズム(ppoとsac)のベースラインハイパーパラメータ値を,異なるサイクル時間にわたって検討する。
両アルゴリズムのベースラインハイパーパラメータが正常に動作しているベンチマークタスクを用いて、タスクデフォルトとは異なるサイクル時間を選択すると、ベースラインハイパーパラメータを持つPPOが学習に失敗することを明らかにする。
さらに、ベースラインのハイパーパラメータを持つPPOとSACは、サイクル時間毎に調整された値よりも大幅に低下する。
サイクル時間に基づいてこれらのハイパーパラメータを設定するための新しい手法を提案する。
シミュレーションおよび実世界のロボットタスクの実験において,提案手法は,少なくともベースラインのハイパーパラメータと同様に,サイクルタイムのほとんどの選択において有意に優れた性能を示し,サイクルタイムの学習に失敗することはなかった。
ハイパーパラメータチューニングは、我々のアプローチでは新しいタスクにいくつかの初期チューニングを必要とするため、実世界のロボティクスにとって依然として重要な障壁です。
提案手法では,与えられたタスクに対してサイクル時間を変更した後に追加のチューニングを必要とせず,現実世界のポリシー最適化のために,広範かつコストのかかるハイパーパラメータチューニングを回避するためのステップとなる。
関連論文リスト
- Hyperparameters in Continual Learning: a Reality Check [53.30082523545212]
ベンチマークデータセットで構築されたCLシナリオ上で、CLアルゴリズムをトレーニングすることは一般的なプラクティスである。
本稿では,この評価プロトコルは実用的でなく,CLアルゴリズムのCL能力を効果的に評価することができないことを主張する。
論文 参考訳(メタデータ) (2024-03-14T03:13:01Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は破滅的な忘れ込みという課題を克服しようと試み、そこでは新しいタスクを解くための学習が、モデルが以前に学習した情報を忘れる原因となる。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れ込みを抑える新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in
Reinforcement Learning [0.38073142980732994]
強化学習はロボット制御を学ぶための有望なパラダイムであり、ダイナミックスモデルを必要とせずに複雑な制御ポリシーを学習することができる。
本稿では,複数の強化学習エージェントのアンサンブルを用いて,それぞれ異なるパラメータの集合と,最適な演奏セットを選択するメカニズムを提案する。
オンライン重み付きQ-アンサンブルは,q平均アンサンブルと比較した場合,全体の低分散と優れた結果を示した。
論文 参考訳(メタデータ) (2022-09-29T19:57:43Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Tuning Mixed Input Hyperparameters on the Fly for Efficient Population
Based AutoRL [12.135280422000635]
連続変数とカテゴリー変数の両方を最適化する新しい効率的な階層的アプローチを導入する。
データ拡張と他のハイパーパラメータ間の依存を明示的にモデル化することで、一般化が向上することを示す。
論文 参考訳(メタデータ) (2021-06-30T08:15:59Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。