Fugu-MT 論文翻訳(概要): Learning to Optimize for Reinforcement Learning

論文の概要: Learning to Optimize for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2302.01470v2
Date: Sun, 2 Jul 2023 09:40:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-04 14:51:30.873886
Title: Learning to Optimize for Reinforcement Learning
Title（参考訳）: 強化学習のための学習
Authors: Qingfeng Lan, A. Rupam Mahmood, Shuicheng Yan, Zhongwen Xu
Abstract要約: ゼロから強化学習を行うエージェントを学習することは可能であることを示す。おもちゃのタスクでしか訓練されないが、我々の学習はブラックスの複雑なタスクに一般化することができる。
参考スコア（独自算出の注目度）: 79.03249959636776
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, by leveraging more data, computation, and diverse tasks, learned optimizers have achieved remarkable success in supervised learning, outperforming classical hand-designed optimizers. Reinforcement learning (RL) is essentially different from supervised learning and in practice these learned optimizers do not work well even in simple RL tasks. We investigate this phenomenon and identity three issues. First, the gradients of an RL agent vary across a wide range in logarithms while their absolute values are in a small range, making neural networks hard to obtain accurate parameter updates. Second, the agent-gradient distribution is non-independent and identically distributed, leading to inefficient meta-training. Finally, due to highly stochastic agent-environment interactions, the agent-gradients have high bias and variance, which increase the difficulty of learning an optimizer for RL. We propose gradient processing, pipeline training, and a novel optimizer structure with good inductive bias to address these issues. By applying these techniques, for the first time, we show that learning an optimizer for RL from scratch is possible. Although only trained in toy tasks, our learned optimizer can generalize to unseen complex tasks in Brax.
Abstract（参考訳）: 近年、多くのデータ、計算、多様なタスクを活用することで、学習オプティマイザは教師付き学習において大きな成功を収め、古典的な手設計オプティマイザよりも優れています。強化学習(Reinforcement Learning, RL)は、教師あり学習とは本質的に異なり、実際にこれらの学習最適化は単純なRLタスクでもうまく機能しない。この現象と同一性は3つある。第一に、RLエージェントの勾配は、その絶対値が小さい範囲にある間、幅広い対数の範囲で変化し、ニューラルネットワークが正確なパラメータ更新を得るのが困難になる。第二に、エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。最後に, エージェント・環境相互作用の高度化により, エージェント・グラディエントは高いバイアスと分散を有し, 最適化器の学習が困難になる。これらの問題に対処するために,勾配処理,パイプライントレーニング,インダクティブバイアスの高い新しいオプティマイザ構造を提案する。これらの手法を適用することで、初めてRLの最適化をスクラッチから学習できることが示される。おもちゃのタスクでしか訓練されないが、学習したオプティマイザはブラックスの複雑なタスクに一般化できる。

関連論文リスト

Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文参考訳（メタデータ） (2025-05-29T14:06:50Z)
Improving Retrospective Language Agents via Joint Policy Gradient Optimization [57.35348425288859]
RetroActは、言語エージェントのタスク計画と自己反射進化機能を共同で最適化するフレームワークである。模倣学習と強化学習を統合した2段階共同最適化プロセスを開発した。 RetroActはタスクのパフォーマンスと意思決定プロセスを大幅に改善しています。
論文参考訳（メタデータ） (2025-03-03T12:54:54Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
深層強化学習(LRRL)のための動的学習率を提案する。 LRRLは、トレーニング中のエージェントのパフォーマンスに基づいて学習率を選択するメタラーニングアプローチである。実験の結果,LRRLは深部RLアルゴリズムの性能を大幅に向上できることが示された。
論文参考訳（メタデータ） (2024-10-16T14:15:28Z)
HUB: Guiding Learned Optimizers with Continuous Prompt Tuning [45.662334160254176]
学習はメタ学習の重要な要素である。スケーラブルな学習の最近の進歩は、様々なタスクにおいて手作業よりも優れたパフォーマンスを示している。本稿では,スケーラブルな学習における一般化問題に対処するため,ハイブリッド更新ベース(HUB)最適化手法を提案する。
論文参考訳（メタデータ） (2023-05-26T11:08:20Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)
A Closer Look at Learned Optimization: Stability, Robustness, and Inductive Biases [44.01339030872185]
ブラックボックスは、しばしば、メタトレーニングセットのタスクと異なり、安定性と一般化に苦しむ。最適化アルゴリズムの帰納バイアスと安定性特性について検討し、結果として得られる知見をブラックボックスの帰納バイアスの設計に適用する。私たちはさまざまなニューラルネットワークトレーニングタスクを学び、そこで学んだ技術の現状を上回ります。
論文参考訳（メタデータ） (2022-09-22T17:47:21Z)
Training Learned Optimizers with Randomly Initialized Learned Optimizers [49.67678615506608]
ランダムに学習した人の集団は、オンラインの方法でゼロから学習することができる。人口ベーストレーニングの形式は、この自己学習の組織化に使用される。このタイプのフィードバックループは、機械学習の将来において重要かつ強力なものになると思います。
論文参考訳（メタデータ） (2021-01-14T19:07:17Z)
Reverse engineering learned optimizers reveals known and novel mechanisms [50.50540910474342]
学習は最適化問題を解決するために自らを訓練できるアルゴリズムである。実験の結果は,学習の動作方法に関するそれまでの曖昧な理解を解明し,今後の学習を解釈するためのツールを確立するのに役立つ。
論文参考訳（メタデータ） (2020-11-04T07:12:43Z)
Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文参考訳（メタデータ） (2020-09-23T16:35:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。