Fugu-MT 論文翻訳(概要): Reducing the Cost of Cycle-Time Tuning for Real-World Policy Optimization

論文の概要: Reducing the Cost of Cycle-Time Tuning for Real-World Policy Optimization

arxiv url: http://arxiv.org/abs/2305.05760v2
Date: Wed, 31 May 2023 18:37:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 23:24:28.450076
Title: Reducing the Cost of Cycle-Time Tuning for Real-World Policy Optimization
Title（参考訳）: 実世界政策最適化のためのサイクル調整のコスト削減
Authors: Homayoon Farrahi and A. Rupam Mahmood
Abstract要約: 継続的強化学習タスクは、通常、アクションに固定サイクルタイムの離散的なステップを使用する。実践者は与えられたタスクのアクションサイクル時間を選択する必要があるため、学習アルゴリズムのハイパーパラメータがサイクル時間の選択毎に再調整される必要があるかどうかが重要な懸念事項である。
参考スコア（独自算出の注目度）: 2.66512000865131
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Continuous-time reinforcement learning tasks commonly use discrete steps of fixed cycle times for actions. As practitioners need to choose the action-cycle time for a given task, a significant concern is whether the hyper-parameters of the learning algorithm need to be re-tuned for each choice of the cycle time, which is prohibitive for real-world robotics. In this work, we investigate the widely-used baseline hyper-parameter values of two policy gradient algorithms -- PPO and SAC -- across different cycle times. Using a benchmark task where the baseline hyper-parameters of both algorithms were shown to work well, we reveal that when a cycle time different than the task default is chosen, PPO with baseline hyper-parameters fails to learn. Moreover, both PPO and SAC with their baseline hyper-parameters perform substantially worse than their tuned values for each cycle time. We propose novel approaches for setting these hyper-parameters based on the cycle time. In our experiments on simulated and real-world robotic tasks, the proposed approaches performed at least as well as the baseline hyper-parameters, with significantly better performance for most choices of the cycle time, and did not result in learning failure for any cycle time. Hyper-parameter tuning still remains a significant barrier for real-world robotics, as our approaches require some initial tuning on a new task, even though it is negligible compared to an extensive tuning for each cycle time. Our approach requires no additional tuning after the cycle time is changed for a given task and is a step toward avoiding extensive and costly hyper-parameter tuning for real-world policy optimization.
Abstract（参考訳）: 継続的強化学習タスクは一般的に、アクションに固定サイクル時間の離散的なステップを使用する。実践者は与えられたタスクのアクションサイクル時間を選択する必要があるため、学習アルゴリズムのハイパーパラメータが現実世界のロボティクスでは禁止されているサイクル時間の選択ごとに再調整する必要があるかどうかが重要な懸念事項である。本研究では,2つのポリシー勾配アルゴリズム(ppoとsac)のベースラインハイパーパラメータ値を,異なるサイクル時間にわたって検討する。両アルゴリズムのベースラインハイパーパラメータが正常に動作しているベンチマークタスクを用いて、タスクデフォルトとは異なるサイクル時間を選択すると、ベースラインハイパーパラメータを持つPPOが学習に失敗することを明らかにする。さらに、ベースラインのハイパーパラメータを持つPPOとSACは、サイクル時間毎に調整された値よりも大幅に低下する。サイクル時間に基づいてこれらのハイパーパラメータを設定するための新しい手法を提案する。シミュレーションおよび実世界のロボットタスクの実験において,提案手法は,少なくともベースラインのハイパーパラメータと同様に,サイクルタイムのほとんどの選択において有意に優れた性能を示し,サイクルタイムの学習に失敗することはなかった。ハイパーパラメータチューニングは、我々のアプローチでは新しいタスクにいくつかの初期チューニングを必要とするため、実世界のロボティクスにとって依然として重要な障壁です。提案手法では,与えられたタスクに対してサイクル時間を変更した後に追加のチューニングを必要とせず,現実世界のポリシー最適化のために,広範かつコストのかかるハイパーパラメータチューニングを回避するためのステップとなる。

関連論文リスト

TS-DP: Reinforcement Speculative Decoding For Temporal Adaptive Diffusion Policy Acceleration [64.32072516882947]
拡散ポリシーは、具体的制御が優れているが、高い推論遅延と計算コストに悩まされている。時間認識強化に基づく投機的拡散政策(TS-DP)を提案する。 TS-DPは94%以上のドラフトで最大4.17倍高速な推論を実現し、推論周波数は25Hzに達した。
論文参考訳（メタデータ） (2025-12-13T07:53:14Z)
How far away are truly hyperparameter-free learning algorithms? [21.3925393750153]
我々は,ハイパーパラメータフリー手法の構成要素として,学習速度フリー手法の可能性を評価する。文献提供のデフォルト設定がベンチマークでは不十分であることが分かりました。最高のAlgoPerf校正学習レートフリーメソッドは、パフォーマンスが大幅に向上したが、ベンチマークスコア全体でも同様の校正ベースラインにわずかに遅れを取っていた。
論文参考訳（メタデータ） (2025-05-29T20:57:31Z)
MOSEAC: Streamlined Variable Time Step Reinforcement Learning [14.838483990647697]
マルチ目的ソフト・エクササイズ・アクタ・クライブ法(MOSEAC)を提案する。 MOSEACは、トレーニング中のタスク報酬の観測傾向に基づく適応型報酬スキームを特徴とする。ニュートンのキネマティクス環境におけるシミュレーションによりMOSEAC法の有効性を検証した。
論文参考訳（メタデータ） (2024-06-03T16:51:57Z)
Hyperparameters in Continual Learning: A Reality Check [53.30082523545212]
連続学習(CL)は、可塑性(新しいタスクを学ぶ)と安定性(事前知識を保持する)のトレードオフをバランスしながら、一連のタスクでモデルを訓練することを目的としている。
論文参考訳（メタデータ） (2024-03-14T03:13:01Z)
AutoRL Hyperparameter Landscapes [69.15927869840918]
強化学習(Reinforcement Learning, RL)は印象的な結果を生み出すことができるが、その使用はハイパーパラメータがパフォーマンスに与える影響によって制限されている。我々は,これらのハイパーパラメータの景観を1つの時間だけではなく,複数の時間内に構築し,解析する手法を提案する。これは、ハイパーパラメータがトレーニング中に動的に調整されるべきであるという理論を支持し、ランドスケープ解析によって得られるAutoRL問題に関するさらなる洞察の可能性を示している。
論文参考訳（メタデータ） (2023-04-05T12:14:41Z)
Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2023-02-18T23:31:20Z)
AUTOMATA: Gradient Based Data Subset Selection for Compute-Efficient Hyper-parameter Tuning [72.54359545547904]
ハイパーパラメータチューニングのための勾配に基づくサブセット選択フレームワークを提案する。ハイパーパラメータチューニングに勾配ベースのデータサブセットを用いることで、3$times$-30$times$のターンアラウンド時間とスピードアップが大幅に向上することを示す。
論文参考訳（メタデータ） (2022-03-15T19:25:01Z)
Tuning Mixed Input Hyperparameters on the Fly for Efficient Population Based AutoRL [12.135280422000635]
連続変数とカテゴリー変数の両方を最適化する新しい効率的な階層的アプローチを導入する。データ拡張と他のハイパーパラメータ間の依存を明示的にモデル化することで、一般化が向上することを示す。
論文参考訳（メタデータ） (2021-06-30T08:15:59Z)
Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文参考訳（メタデータ） (2021-06-17T00:01:18Z)
Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。 RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文参考訳（メタデータ） (2021-02-15T19:36:18Z)
Deep Reinforcement Learning using Cyclical Learning Rates [62.19441737665902]
勾配降下(SGD)に基づく最適化手順における最も影響力のあるパラメータの1つは、学習率である。循環学習について検討し,様々なDRL問題に対する一般循環学習率の定義法を提案する。本実験により, 循環学習は, 高度に調整された固定学習率よりも, 類似あるいは良好な結果が得られることがわかった。
論文参考訳（メタデータ） (2020-07-31T10:06:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。