論文の概要: Entropy Regularized Reinforcement Learning with Cascading Networks
- arxiv url: http://arxiv.org/abs/2210.08503v1
- Date: Sun, 16 Oct 2022 10:28:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 20:21:14.824667
- Title: Entropy Regularized Reinforcement Learning with Cascading Networks
- Title(参考訳): cascading networkを用いたエントロピー正規化強化学習
- Authors: Riccardo Della Vecchia, Alena Shilova, Philippe Preux, Riad Akrour
- Abstract要約: Deep RLは関数近似器としてニューラルネットワークを使用する。
RLの大きな難しさの1つは、i.i.d.データの欠如である。
本研究では,ニューラルネットワークを用いた教師なし学習コミュニティの共通実践に挑戦する。
- 参考スコア(独自算出の注目度): 9.973226671536041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (Deep RL) has had incredible achievements on high
dimensional problems, yet its learning process remains unstable even on the
simplest tasks. Deep RL uses neural networks as function approximators. These
neural models are largely inspired by developments in the (un)supervised
machine learning community. Compared to these learning frameworks, one of the
major difficulties of RL is the absence of i.i.d. data. One way to cope with
this difficulty is to control the rate of change of the policy at every
iteration. In this work, we challenge the common practices of the
(un)supervised learning community of using a fixed neural architecture, by
having a neural model that grows in size at each policy update. This allows a
closed form entropy regularized policy update, which leads to a better control
of the rate of change of the policy at each iteration and help cope with the
non i.i.d. nature of RL. Initial experiments on classical RL benchmarks show
promising results with remarkable convergence on some RL tasks when compared to
other deep RL baselines, while exhibiting limitations on others.
- Abstract(参考訳): 深層強化学習(deep rl)は高次元問題において驚くべき成果を上げているが、最も単純なタスクでもその学習プロセスは不安定である。
Deep RLは関数近似器としてニューラルネットワークを使用する。
これらのニューラルモデルは、主に(教師なしの)機械学習コミュニティの発展にインスパイアされている。
これらの学習フレームワークと比較して、RLの大きな問題の1つは、i.i.d.データの欠如である。
この困難に対処する1つの方法は、イテレーションごとにポリシーの変更率を制御することである。
本研究では、各ポリシー更新時にサイズが大きくなるニューラルモデルを持つことにより、固定されたニューラルアーキテクチャを使用するという(教師なしの)学習コミュニティの一般的な実践に挑戦する。
これにより、閉形式エントロピー規則化されたポリシー更新が可能となり、各イテレーションにおけるポリシーの変更率をよりよく制御し、RLの非I.d.な性質に対応するのに役立つ。
古典的RLベンチマークの初期実験は、他の深いRLベースラインと比較して、いくつかのRLタスクに顕著な収束を伴う有望な結果を示した。
関連論文リスト
- A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - The RL Perceptron: Generalisation Dynamics of Policy Learning in High
Dimensions [14.778024171498208]
強化学習アルゴリズムは、様々な領域において変形的であることが証明されている。
RLの多くの理論は、離散状態空間や最悪のケース解析に焦点を当てている。
本稿では,様々な学習プロトコルを捉えることができるRLの高次元解像モデルを提案する。
論文 参考訳(メタデータ) (2023-06-17T18:16:51Z) - Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。
我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。
既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-03T15:11:10Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Deep Reinforcement Learning with Spiking Q-learning [51.386945803485084]
スパイクニューラルネットワーク(SNN)は、少ないエネルギー消費で人工知能(AI)を実現することが期待されている。
SNNと深部強化学習(RL)を組み合わせることで、現実的な制御タスクに有望なエネルギー効率の方法を提供する。
論文 参考訳(メタデータ) (2022-01-21T16:42:11Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - Catastrophic Interference in Reinforcement Learning: A Solution Based on
Context Division and Knowledge Distillation [8.044847478961882]
コンテクスト」の概念をシングルタスク強化学習に導入する。
我々は、コンテキスト分割と知識蒸留駆動RLと呼ばれる新しいスキームを開発する。
以上の結果から,CDaKDはメモリ容量の変動により,既存のRLアルゴリズムの性能を継続的に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-09-01T12:02:04Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。