論文の概要: Hyperparameter Auto-tuning in Self-Supervised Robotic Learning
- arxiv url: http://arxiv.org/abs/2010.08252v4
- Date: Thu, 25 Mar 2021 03:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:41:36.505579
- Title: Hyperparameter Auto-tuning in Self-Supervised Robotic Learning
- Title(参考訳): 自己教師付きロボット学習におけるハイパーパラメータ自動チューニング
- Authors: Jiancong Huang, Juan Rojas, Matthieu Zimmer, Hongmin Wu, Yisheng Guan,
and Paul Weng
- Abstract要約: 不十分な学習(局所最適収束による)は、冗長な学習が時間と資源を浪費する一方で、低パフォーマンスの政策をもたらす。
自己教師付き強化学習のためのエビデンス下界(ELBO)に基づく自動チューニング手法を提案する。
本手法は,オンラインで自動チューニングが可能であり,計算資源のごく一部で最高の性能が得られる。
- 参考スコア(独自算出の注目度): 12.193817049957733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy optimization in reinforcement learning requires the selection of
numerous hyperparameters across different environments. Fixing them incorrectly
may negatively impact optimization performance leading notably to insufficient
or redundant learning. Insufficient learning (due to convergence to local
optima) results in under-performing policies whilst redundant learning wastes
time and resources. The effects are further exacerbated when using single
policies to solve multi-task learning problems. Observing that the Evidence
Lower Bound (ELBO) used in Variational Auto-Encoders correlates with the
diversity of image samples, we propose an auto-tuning technique based on the
ELBO for self-supervised reinforcement learning. Our approach can auto-tune
three hyperparameters: the replay buffer size, the number of policy gradient
updates during each epoch, and the number of exploration steps during each
epoch. We use a state-of-the-art self-supervised robot learning framework
(Reinforcement Learning with Imagined Goals (RIG) using Soft Actor-Critic) as
baseline for experimental verification. Experiments show that our method can
auto-tune online and yields the best performance at a fraction of the time and
computational resources. Code, video, and appendix for simulated and real-robot
experiments can be found at the project page \url{www.JuanRojas.net/autotune}.
- Abstract(参考訳): 強化学習におけるポリシー最適化は、異なる環境にまたがる多数のハイパーパラメータの選択を必要とする。
間違った修正は、特に不十分あるいは冗長な学習につながる最適化のパフォーマンスに悪影響を及ぼす可能性がある。
学習不足(ローカルオプティマへの収束による)は、冗長な学習が時間とリソースを浪費している間に、パフォーマンスの低いポリシーをもたらす。
マルチタスク学習問題を解決するために単一のポリシーを使用する場合、さらに効果が増す。
変分オートエンコーダで使用されるエビデンスローバウンド(ELBO)が画像サンプルの多様性と相関していることから,自己教師付き強化学習のためのELBOに基づく自動チューニング手法を提案する。
当社のアプローチでは,リプレイバッファサイズ,各エポック時のポリシ勾配更新数,各エポック時の探索ステップ数という3つのハイパーパラメータを自動調整することが可能です。
我々は,Soft Actor-Critic を用いた最先端の自己教師型ロボット学習フレームワーク (Reinforcement Learning with Imagined Goals (RIG)) をベースラインとして実験検証を行った。
実験の結果,本手法はオンラインで自動チューニングが可能であり,時間と計算資源のごく一部で最高の性能が得られることがわかった。
シミュレーションおよび実ロボット実験のためのコード、ビデオ、付録はプロジェクトページ \url{www.JuanRojas.net/autotune} で見ることができる。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in
Reinforcement Learning [0.38073142980732994]
強化学習はロボット制御を学ぶための有望なパラダイムであり、ダイナミックスモデルを必要とせずに複雑な制御ポリシーを学習することができる。
本稿では,複数の強化学習エージェントのアンサンブルを用いて,それぞれ異なるパラメータの集合と,最適な演奏セットを選択するメカニズムを提案する。
オンライン重み付きQ-アンサンブルは,q平均アンサンブルと比較した場合,全体の低分散と優れた結果を示した。
論文 参考訳(メタデータ) (2022-09-29T19:57:43Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Episodic Self-Imitation Learning with Hindsight [7.743320290728377]
エピソード自己像学習は、軌道選択モジュールと適応的損失関数を備えた新しい自己像アルゴリズムである。
更新の各エピソードから不正なサンプルをフィルタリングするために選択モジュールが導入された。
エピソード自己イメージ学習は、連続的な行動空間を持つ実世界の問題に適用できる可能性がある。
論文 参考訳(メタデータ) (2020-11-26T20:36:42Z) - Deep Surrogate Q-Learning for Autonomous Driving [17.30342128504405]
本稿では,自律運転における車線変更行動学習のためのSurrogate Q-learningを提案する。
このアーキテクチャは、Scene-centric Experience Replayと呼ばれる新しいリプレイサンプリング技術に繋がることを示す。
また,本手法は実高Dデータセット上のポリシーを学習することで,実世界のRLシステムの適用性を向上させる。
論文 参考訳(メタデータ) (2020-10-21T19:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。