論文の概要: RL-DARTS: Differentiable Architecture Search for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.02229v1
- Date: Fri, 4 Jun 2021 03:08:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:25:33.435662
- Title: RL-DARTS: Differentiable Architecture Search for Reinforcement Learning
- Title(参考訳): RL-DARTS:強化学習のための微分可能なアーキテクチャ探索
- Authors: Yingjie Miao, Xingyou Song, Daiyi Peng, Summer Yue, Eugene Brevdo,
Aleksandra Faust
- Abstract要約: 我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
- 参考スコア(独自算出の注目度): 62.95469460505922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce RL-DARTS, one of the first applications of Differentiable
Architecture Search (DARTS) in reinforcement learning (RL) to search for
convolutional cells, applied to the Procgen benchmark. We outline the initial
difficulties of applying neural architecture search techniques in RL, and
demonstrate that by simply replacing the image encoder with a DARTS supernet,
our search method is sample-efficient, requires minimal extra compute
resources, and is also compatible with off-policy and on-policy RL algorithms,
needing only minor changes in preexisting code. Surprisingly, we find that the
supernet can be used as an actor for inference to generate replay data in
standard RL training loops, and thus train end-to-end. Throughout this training
process, we show that the supernet gradually learns better cells, leading to
alternative architectures which can be highly competitive against manually
designed policies, but also verify previous design choices for RL policies.
- Abstract(参考訳): 本稿では,RL-DARTS(Regressed Learning (RL)における微分可能なアーキテクチャ探索)の最初の応用として,Procgenベンチマークに適用した。
我々は、RLにニューラルネットワーク検索技術を適用することの難しさを概説し、画像エンコーダをDARTSスーパーネットに置き換えることによって、検索方法はサンプリング効率が良く、余分な計算資源が最小限必要であり、既存のコードにわずかな変更を加えることなく、オフ・ポリティクスやオン・ポリティクスのRLアルゴリズムと互換性を持つことを示した。
驚くべきことに、このスーパーネットは標準的なRLトレーニングループで再生データを生成し、エンドツーエンドのトレーニングを行うためにアクターとして使用できる。
このトレーニングプロセスを通じて、スーパーネットはより優れたセルを徐々に学習し、手動で設計したポリシーと高い競争力を持つ代替アーキテクチャを実現するとともに、RLポリシーの以前の設計選択を検証する。
関連論文リスト
- SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。
我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。
既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-03T15:11:10Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Improving Generalization of Deep Reinforcement Learning-based TSP
Solvers [19.29028564568974]
本稿では,ディープラーニングアーキテクチャとDRL学習方法を含むMAGICという新しいアプローチを提案する。
マルチレイヤパーセプトロン,グラフニューラルネットワーク,アテンションモデルを統合したアーキテクチャでは,旅行セールスマンソリューションを逐次生成するポリシを定義している。
1) DRLポリシー更新をローカル検索とインターリーブし(新しいローカル検索技術を用いて)、(2) 新たなシンプルなベースラインを使用し、(3) 勾配学習を適用した。
論文 参考訳(メタデータ) (2021-10-06T15:16:19Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Hierarchical Reinforcement Learning for Relay Selection and Power
Optimization in Two-Hop Cooperative Relay Network [7.5377621697101205]
本研究では,2ホップ協調型中継ネットワークにおいて,送信電力の制約を考慮に入れた停止確率最小化問題について検討する。
我々は、リレー選択と配電のための戦略を学ぶために強化学習(RL)手法を用いる。
階層型強化学習(HRL)フレームワークとトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-10T04:47:41Z) - Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。