論文の概要: Data Efficient Training for Reinforcement Learning with Adaptive
Behavior Policy Sharing
- arxiv url: http://arxiv.org/abs/2002.05229v1
- Date: Wed, 12 Feb 2020 20:35:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 18:54:29.956980
- Title: Data Efficient Training for Reinforcement Learning with Adaptive
Behavior Policy Sharing
- Title(参考訳): 適応行動政策共有による強化学習のためのデータ効率的な訓練
- Authors: Ge Liu, Rui Wu, Heng-Tze Cheng, Jing Wang, Jayden Ooi, Lihong Li, Ang
Li, Wai Lok Sibon Li, Craig Boutilier, Ed Chi
- Abstract要約: 大規模医療やレコメンデーションシステムといった実世界の応用において、深層RLモデルのトレーニングは困難である。
本稿では、行動ポリシーによって収集された経験の共有を可能にするデータ効率のトレーニングアルゴリズムである適応行動ポリシー共有(ABPS)を提案する。
- 参考スコア(独自算出の注目度): 29.283554268767805
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep Reinforcement Learning (RL) is proven powerful for decision making in
simulated environments. However, training deep RL model is challenging in real
world applications such as production-scale health-care or recommender systems
because of the expensiveness of interaction and limitation of budget at
deployment. One aspect of the data inefficiency comes from the expensive
hyper-parameter tuning when optimizing deep neural networks. We propose
Adaptive Behavior Policy Sharing (ABPS), a data-efficient training algorithm
that allows sharing of experience collected by behavior policy that is
adaptively selected from a pool of agents trained with an ensemble of
hyper-parameters. We further extend ABPS to evolve hyper-parameters during
training by hybridizing ABPS with an adapted version of Population Based
Training (ABPS-PBT). We conduct experiments with multiple Atari games with up
to 16 hyper-parameter/architecture setups. ABPS achieves superior overall
performance, reduced variance on top 25% agents, and equivalent performance on
the best agent compared to conventional hyper-parameter tuning with independent
training, even though ABPS only requires the same number of environmental
interactions as training a single agent. We also show that ABPS-PBT further
improves the convergence speed and reduces the variance.
- Abstract(参考訳): 深層強化学習(rl)はシミュレーション環境での意思決定に強力であることが証明されている。
しかしながら,大規模医療システムやレコメンデーションシステムといった実世界の応用においては,対話のコストと運用予算の制限のため,深層RLモデルのトレーニングは困難である。
データ非効率の1つの側面は、ディープニューラルネットワークを最適化する際の高価なハイパーパラメータチューニングである。
ハイパーパラメータのアンサンブルで訓練されたエージェントのプールから適応的に選択された行動ポリシーによって収集された経験を共有することを可能にするデータ効率の高いトレーニングアルゴリズムであるadaptive behavior policy sharing (abps)を提案する。
さらに、ABPSを適応したABPS-PBT(Population Based Training)と併用することにより、トレーニング中にABPSを拡張してハイパーパラメータを進化させる。
最大16個のハイパーパラメータ/アーキテクチャ設定のatariゲームで実験を行った。
ABPSは、単独のエージェントを訓練するのと同じ数の環境相互作用しか必要とせず、より優れた総合的な性能、上位25%のエージェントの分散の低減、および独立トレーニングによる従来のハイパーパラメータチューニングと比較して最高のエージェントの等価性能を実現している。
また,ABPS-PBTは収束速度をさらに向上し,分散を減少させることを示した。
関連論文リスト
- Simultaneous Training of First- and Second-Order Optimizers in Population-Based Reinforcement Learning [0.0]
人口ベーストレーニング(PBT)は、トレーニング全体を通してハイパーパラメータを継続的にチューニングすることで、これを実現する方法を提供する。
本稿では,単一個体群内における第1次と第2次の両方を同時に活用することにより,PBTの強化を提案する。
論文 参考訳(メタデータ) (2024-08-27T21:54:26Z) - Generalized Population-Based Training for Hyperparameter Optimization in Reinforcement Learning [10.164982368785854]
一般人口ベーストレーニング(GPBT)とペアワイズ学習(PL)
PLは、パフォーマンスの差を識別し、パフォーマンスの低いエージェントに対する全体的なガイダンスを提供するために、包括的なペアワイズ戦略を採用している。
論文 参考訳(メタデータ) (2024-04-12T04:23:20Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Efficient and Effective Augmentation Strategy for Adversarial Training [48.735220353660324]
ディープニューラルネットワークの敵対的トレーニングは、標準トレーニングよりもはるかにデータ処理が難しいことが知られている。
本稿では,DAJAT(Diverse Augmentation-based Joint Adversarial Training)を提案する。
論文 参考訳(メタデータ) (2022-10-27T10:59:55Z) - Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in
Reinforcement Learning [0.38073142980732994]
強化学習はロボット制御を学ぶための有望なパラダイムであり、ダイナミックスモデルを必要とせずに複雑な制御ポリシーを学習することができる。
本稿では,複数の強化学習エージェントのアンサンブルを用いて,それぞれ異なるパラメータの集合と,最適な演奏セットを選択するメカニズムを提案する。
オンライン重み付きQ-アンサンブルは,q平均アンサンブルと比較した場合,全体の低分散と優れた結果を示した。
論文 参考訳(メタデータ) (2022-09-29T19:57:43Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Hybrid Learning for Orchestrating Deep Learning Inference in Multi-user
Edge-cloud Networks [3.7630209350186807]
ディープラーニングのためのコラボレーション型のエッジクラウドコンピューティングは、さまざまなパフォーマンスと効率を提供する。
ディープラーニング推論オーケストレーション戦略では、最適なオーケストレーションポリシを見つけるために強化学習を採用している。
我々は、最先端のRLベースの推論オーケストレーションを実験的に比較することで、HL戦略の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-21T21:50:50Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - On the Importance of Hyperparameter Optimization for Model-based
Reinforcement Learning [27.36718899899319]
モデルベース強化学習(MBRL)はデータ効率のよい制御を学習するための有望なフレームワークである。
MBRLは通常、新しい問題やドメインに適用する前に、重要な人間の専門知識が必要です。
論文 参考訳(メタデータ) (2021-02-26T18:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。