論文の概要: Learning to Optimize for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.01470v1
- Date: Fri, 3 Feb 2023 00:11:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 17:58:57.731364
- Title: Learning to Optimize for Reinforcement Learning
- Title(参考訳): 強化学習のための学習
- Authors: Qingfeng Lan, A. Rupam Mahmood, Shuicheng Yan, Zhongwen Xu
- Abstract要約: メタラーニングを用いた強化学習の最適化を学習するために,データ駆動型アプローチを採用する。
学習者の学習効率を大幅に向上させる新しい構造を導入する。
おもちゃのタスクで訓練されているにもかかわらず、我々の学習は複雑なタスクを目にする能力を示している。
- 参考スコア(独自算出の注目度): 79.03249959636776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, by leveraging more data, computation, and diverse tasks,
learned optimizers have achieved remarkable success in supervised learning
optimization, outperforming classical hand-designed optimizers. However, in
practice, these learned optimizers fail to generalize to reinforcement learning
tasks due to unstable and complex loss landscapes. Moreover, neither
hand-designed optimizers nor learned optimizers have been specifically designed
to address the unique optimization properties in reinforcement learning. In
this work, we take a data-driven approach to learn to optimize for
reinforcement learning using meta-learning. We introduce a novel optimizer
structure that significantly improves the training efficiency of learned
optimizers, making it possible to learn an optimizer for reinforcement learning
from scratch. Although trained in toy tasks, our learned optimizer demonstrates
its generalization ability to unseen complex tasks. Finally, we design a set of
small gridworlds to train the first general-purpose optimizer for reinforcement
learning.
- Abstract(参考訳): 近年、より多くのデータ、計算、多様なタスクを活用することで、学習オプティマイザは、従来の手設計オプティマイザを上回って、教師付き学習最適化において顕著な成功を収めている。
しかし、実際には、これらの学習オプティマイザは不安定で複雑な損失環境のため、強化学習タスクへの一般化に失敗する。
さらに、強化学習におけるユニークな最適化特性に対処するために、手設計のオプティマイザも学習オプティマイザも特に設計されていない。
本研究では,メタラーニングを用いた強化学習を最適化するために,データ駆動アプローチを採用する。
学習用最適化器の学習効率を大幅に向上させる新しい最適化器構造を導入し、スクラッチから強化学習のための最適化器を学習できるようにする。
おもちゃのタスクで訓練されていますが、学習したオプティマイザは複雑なタスクを認識できない一般化能力を示しています。
最後に,強化学習のための汎用オプティマイザを訓練するための,一連の小さなグリッドワールドを設計する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
深層強化学習(LRRL)のための動的学習率を提案する。
LRRLは、トレーニング中のエージェントのパフォーマンスに基づいて学習率を選択するメタラーニングアプローチである。
実験の結果,LRRLは深部RLアルゴリズムの性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - HUB: Guiding Learned Optimizers with Continuous Prompt Tuning [45.662334160254176]
学習はメタ学習の重要な要素である。
スケーラブルな学習の最近の進歩は、様々なタスクにおいて手作業よりも優れたパフォーマンスを示している。
本稿では,スケーラブルな学習における一般化問題に対処するため,ハイブリッド更新ベース(HUB)最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T11:08:20Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - A Closer Look at Learned Optimization: Stability, Robustness, and
Inductive Biases [44.01339030872185]
ブラックボックスは、しばしば、メタトレーニングセットのタスクと異なり、安定性と一般化に苦しむ。
最適化アルゴリズムの帰納バイアスと安定性特性について検討し、結果として得られる知見をブラックボックスの帰納バイアスの設計に適用する。
私たちはさまざまなニューラルネットワークトレーニングタスクを学び、そこで学んだ技術の現状を上回ります。
論文 参考訳(メタデータ) (2022-09-22T17:47:21Z) - Training Learned Optimizers with Randomly Initialized Learned Optimizers [49.67678615506608]
ランダムに学習した人の集団は、オンラインの方法でゼロから学習することができる。
人口ベーストレーニングの形式は、この自己学習の組織化に使用される。
このタイプのフィードバックループは、機械学習の将来において重要かつ強力なものになると思います。
論文 参考訳(メタデータ) (2021-01-14T19:07:17Z) - Reverse engineering learned optimizers reveals known and novel
mechanisms [50.50540910474342]
学習は最適化問題を解決するために自らを訓練できるアルゴリズムである。
実験の結果は,学習の動作方法に関するそれまでの曖昧な理解を解明し,今後の学習を解釈するためのツールを確立するのに役立つ。
論文 参考訳(メタデータ) (2020-11-04T07:12:43Z) - Tasks, stability, architecture, and compute: Training more effective
learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。
ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。
何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文 参考訳(メタデータ) (2020-09-23T16:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。