論文の概要: Beyond Tabula Rasa: Reincarnating Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.01626v1
- Date: Fri, 3 Jun 2022 15:11:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 17:37:40.118188
- Title: Beyond Tabula Rasa: Reincarnating Reinforcement Learning
- Title(参考訳): Beyond Tabula Rasa: 強化学習の再導入
- Authors: Rishabh Agarwal, Max Schwarzer, Pablo Samuel Castro, Aaron Courville,
Marc G. Bellemare
- Abstract要約: タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。
我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。
既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 37.201451908129386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning tabula rasa, that is without any prior knowledge, is the prevalent
workflow in reinforcement learning (RL) research. However, RL systems, when
applied to large-scale settings, rarely operate tabula rasa. Such large-scale
systems undergo multiple design or algorithmic changes during their development
cycle and use ad hoc approaches for incorporating these changes without
re-training from scratch, which would have been prohibitively expensive.
Additionally, the inefficiency of deep RL typically excludes researchers
without access to industrial-scale resources from tackling
computationally-demanding problems. To address these issues, we present
reincarnating RL as an alternative workflow, where prior computational work
(e.g., learned policies) is reused or transferred between design iterations of
an RL agent, or from one RL agent to another. As a step towards enabling
reincarnating RL from any agent to any other agent, we focus on the specific
setting of efficiently transferring an existing sub-optimal policy to a
standalone value-based RL agent. We find that existing approaches fail in this
setting and propose a simple algorithm to address their limitations. Equipped
with this algorithm, we demonstrate reincarnating RL's gains over tabula rasa
RL on Atari 2600 games, a challenging locomotion task, and the real-world
problem of navigating stratospheric balloons. Overall, this work argues for an
alternative approach to RL research, which we believe could significantly
improve real-world RL adoption and help democratize it further.
- Abstract(参考訳): 事前知識のないtabula rasaの学習は、強化学習(rl)研究における一般的なワークフローである。
しかし、大規模な設定に適用されたRLシステムは、タブララザを操作することは滅多にない。
このような大規模なシステムは開発サイクル中に複数の設計やアルゴリズムの変更を施し、これらの変更をスクラッチから再トレーニングすることなく導入するためのアドホックなアプローチを使用する。
さらに、ディープRLの非効率性は、通常、産業規模のリソースにアクセスできない研究者が計算要求問題に取り組むことを排除している。
これらの問題に対処するため,我々はrlエージェントの設計イテレーション間やrlエージェントから別のrlエージェントへ,事前の計算作業(例えば学習されたポリシー)を再利用または転送するワークフローとしてrlを再導入する。
任意のエージェントから他のエージェントにRLを再導入するためのステップとして、既存のサブ最適ポリシーをスタンドアロンの値ベースのRLエージェントに効率的に転送する特定の設定に焦点を当てる。
既存のアプローチはこの設定で失敗し、制限に対処するための単純なアルゴリズムを提案する。
このアルゴリズムを応用して,Atari 2600ゲーム上でのタブラララザRLよりもRLの利得,難易度の高いロコモーションタスク,成層圏バルーンを航行する実世界の問題を再現した。
全体として、この研究は、現実のRLの採用を大幅に改善し、さらなる民主化に役立つと信じているRL研究に代わるアプローチを提案する。
関連論文リスト
- ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Provable Reset-free Reinforcement Learning by No-Regret Reduction [13.800970428473134]
本稿では,リセットフリーなRLアルゴリズムを体系的に設計する汎用的ノ・レグレット還元法を提案する。
我々の減少はリセットのないRL問題を2プレーヤゲームに変える。
この2プレイヤーゲームにおいてサブリニア後悔を達成することは、元のRL問題においてサブリニア性能後悔とサブリニア総リセット数の両方を持つポリシーを学ぶことを意味する。
論文 参考訳(メタデータ) (2023-01-06T05:51:53Z) - Entropy Regularized Reinforcement Learning with Cascading Networks [9.973226671536041]
Deep RLは関数近似器としてニューラルネットワークを使用する。
RLの大きな難しさの1つは、i.i.d.データの欠如である。
本研究では,ニューラルネットワークを用いた教師なし学習コミュニティの共通実践に挑戦する。
論文 参考訳(メタデータ) (2022-10-16T10:28:59Z) - Automated Reinforcement Learning (AutoRL): A Survey and Open Problems [92.73407630874841]
AutoRL(Automated Reinforcement Learning)には、AutoMLの標準的なアプリケーションだけでなく、RL特有の課題も含まれている。
我々は共通の分類法を提供し、各領域を詳細に議論し、今後の研究者にとって関心のあるオープンな問題を提起する。
論文 参考訳(メタデータ) (2022-01-11T12:41:43Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Regret Minimization Experience Replay [14.233842517210437]
優先サンプリングはRL剤の性能を向上させるための有望な手法である。
本研究では,rl政策の後悔を最小限に抑える最適な優先順位付け戦略を理論的に分析する。
RM-DisCorとRM-TCEの2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-15T16:08:45Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。