論文の概要: Reducing the Cost of Cycle-Time Tuning for Real-World Policy
Optimization
- arxiv url: http://arxiv.org/abs/2305.05760v1
- Date: Tue, 9 May 2023 20:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 15:23:42.917008
- Title: Reducing the Cost of Cycle-Time Tuning for Real-World Policy
Optimization
- Title(参考訳): 実世界政策最適化のためのサイクル調整のコスト削減
- Authors: Homayoon Farrahi and A. Rupam Mahmood
- Abstract要約: 継続的強化学習タスクは、通常、アクションに固定サイクルタイムの離散的なステップを使用する。
実践者は与えられたタスクのアクションサイクル時間を選択する必要があるため、学習アルゴリズムのハイパーパラメータがサイクル時間の選択毎に再調整される必要があるかどうかが重要な懸念事項である。
- 参考スコア(独自算出の注目度): 2.66512000865131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous-time reinforcement learning tasks commonly use discrete steps of
fixed cycle times for actions. As practitioners need to choose the action-cycle
time for a given task, a significant concern is whether the hyper-parameters of
the learning algorithm need to be re-tuned for each choice of the cycle time,
which is prohibitive for real-world robotics. In this work, we investigate the
widely-used baseline hyper-parameter values of two policy gradient algorithms
-- PPO and SAC -- across different cycle times. Using a benchmark task where
the baseline hyper-parameters of both algorithms were shown to work well, we
reveal that when a cycle time different than the task default is chosen, PPO
with baseline hyper-parameters fails to learn. Moreover, both PPO and SAC with
their baseline hyper-parameters perform substantially worse than their tuned
values for each cycle time. We propose novel approaches for setting these
hyper-parameters based on the cycle time. In our experiments on simulated and
real-world robotic tasks, the proposed approaches performed at least as well as
the baseline hyper-parameters, with significantly better performance for most
choices of the cycle time, and did not result in learning failure for any cycle
time. Hyper-parameter tuning still remains a significant barrier for real-world
robotics, as our approaches require some initial tuning on a new task, even
though it is negligible compared to an extensive tuning for each cycle time.
Our approach requires no additional tuning after the cycle time is changed for
a given task and is a step toward avoiding extensive and costly hyper-parameter
tuning for real-world policy optimization.
- Abstract(参考訳): 継続的強化学習タスクは一般的に、アクションに固定サイクル時間の離散的なステップを使用する。
実践者は与えられたタスクのアクションサイクル時間を選択する必要があるため、学習アルゴリズムのハイパーパラメータが現実世界のロボティクスでは禁止されているサイクル時間の選択ごとに再調整する必要があるかどうかが重要な懸念事項である。
本研究では,2つのポリシー勾配アルゴリズム(ppoとsac)のベースラインハイパーパラメータ値を,異なるサイクル時間にわたって検討する。
両アルゴリズムのベースラインハイパーパラメータが正常に動作しているベンチマークタスクを用いて、タスクデフォルトとは異なるサイクル時間を選択すると、ベースラインハイパーパラメータを持つPPOが学習に失敗することを明らかにする。
さらに、ベースラインのハイパーパラメータを持つPPOとSACは、サイクル時間毎に調整された値よりも大幅に低下する。
サイクル時間に基づいてこれらのハイパーパラメータを設定するための新しい手法を提案する。
シミュレーションおよび実世界のロボットタスクの実験において,提案手法は,少なくともベースラインのハイパーパラメータと同様に,サイクルタイムのほとんどの選択において有意に優れた性能を示し,サイクルタイムの学習に失敗することはなかった。
ハイパーパラメータチューニングは、我々のアプローチでは新しいタスクにいくつかの初期チューニングを必要とするため、実世界のロボティクスにとって依然として重要な障壁です。
提案手法では,与えられたタスクに対してサイクル時間を変更した後に追加のチューニングを必要とせず,現実世界のポリシー最適化のために,広範かつコストのかかるハイパーパラメータチューニングを回避するためのステップとなる。
関連論文リスト
- MOSEAC: Streamlined Variable Time Step Reinforcement Learning [14.838483990647697]
マルチ目的ソフト・エクササイズ・アクタ・クライブ法(MOSEAC)を提案する。
MOSEACは、トレーニング中のタスク報酬の観測傾向に基づく適応型報酬スキームを特徴とする。
ニュートンのキネマティクス環境におけるシミュレーションによりMOSEAC法の有効性を検証した。
論文 参考訳(メタデータ) (2024-06-03T16:51:57Z) - AutoRL Hyperparameter Landscapes [69.15927869840918]
強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その使用はハイパーパラメータがパフォーマンスに与える影響によって制限されている。
我々は,これらのハイパーパラメータの景観を1つの時間だけではなく,複数の時間内に構築し,解析する手法を提案する。
これは、ハイパーパラメータがトレーニング中に動的に調整されるべきであるという理論を支持し、ランドスケープ解析によって得られるAutoRL問題に関するさらなる洞察の可能性を示している。
論文 参考訳(メタデータ) (2023-04-05T12:14:41Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient
Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。
ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-03-15T19:25:01Z) - Tuning Mixed Input Hyperparameters on the Fly for Efficient Population
Based AutoRL [12.135280422000635]
連続変数とカテゴリー変数の両方を最適化する新しい効率的な階層的アプローチを導入する。
データ拡張と他のハイパーパラメータ間の依存を明示的にモデル化することで、一般化が向上することを示す。
論文 参考訳(メタデータ) (2021-06-30T08:15:59Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - Deep Reinforcement Learning using Cyclical Learning Rates [62.19441737665902]
勾配降下(SGD)に基づく最適化手順における最も影響力のあるパラメータの1つは、学習率である。
循環学習について検討し,様々なDRL問題に対する一般循環学習率の定義法を提案する。
本実験により, 循環学習は, 高度に調整された固定学習率よりも, 類似あるいは良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-31T10:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。