論文の概要: Uniform State Abstraction For Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.02919v1
- Date: Mon, 6 Apr 2020 18:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 05:15:24.960616
- Title: Uniform State Abstraction For Reinforcement Learning
- Title(参考訳): 強化学習のための一様状態抽象化
- Authors: John Burden and Daniel Kudenko
- Abstract要約: マルチグリッド強化学習(MultiGrid Reinforcement Learning, MRL)は, エージェントと環境との相互作用から, ポテンシャル関数の形で抽象的な知識を学習できることを実証した。
本稿では,DQN(Deep Q-Networks)のような最新のディープラーニングアルゴリズムを活用するためにMRLを拡張し改良する。
- 参考スコア(独自算出の注目度): 6.624726878647541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Potential Based Reward Shaping combined with a potential function based on
appropriately defined abstract knowledge has been shown to significantly
improve learning speed in Reinforcement Learning. MultiGrid Reinforcement
Learning (MRL) has further shown that such abstract knowledge in the form of a
potential function can be learned almost solely from agent interaction with the
environment. However, we show that MRL faces the problem of not extending well
to work with Deep Learning. In this paper we extend and improve MRL to take
advantage of modern Deep Learning algorithms such as Deep Q-Networks (DQN). We
show that DQN augmented with our approach perform significantly better on
continuous control tasks than its Vanilla counterpart and DQN augmented with
MRL.
- Abstract(参考訳): 強化学習における学習速度を大幅に向上させるため,ポテンシャルベースリワード整形と,適切に定義された抽象知識に基づくポテンシャル関数が組み合わさった。
マルチグリッド強化学習(MultiGrid Reinforcement Learning、MRL)は、ポテンシャル関数の形でそのような抽象的な知識を、エージェントと環境との相互作用から学習できることをさらに示している。
しかし,MRLはDeep Learningではうまく機能しないという問題に直面している。
本稿では,DQN(Deep Q-Networks)のような最新のディープラーニングアルゴリズムを活用するためにMRLを拡張し改良する。
本手法によるDQN拡張は,バニラ法およびMRL法によるDQN拡張よりも,連続的な制御タスクにおいて有意に優れていた。
関連論文リスト
- Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Mixture of Experts in a Mixture of RL settings [15.124698782503248]
ネットワークのパラメータ数を拡大し、休眠ニューロンを減らし、MoEsはDeep Reinforcement Learning(DRL)の性能を向上させることができることを示す。
DRL設定におけるMoEsの非定常性対応能力について,マルチタスクトレーニングによる「増幅された」非定常性を用いた検討を行った。
論文 参考訳(メタデータ) (2024-06-26T15:15:15Z) - Lifelong Reinforcement Learning with Modulating Masks [16.24639836636365]
生涯学習は、生物学的学習と同様、生涯を通じて継続的に漸進的に学習するAIシステムを作成することを目的としている。
これまでの試みでは、破滅的な忘れ、タスク間の干渉、過去の知識を活用できないといった問題に直面してきた。
マスクによる生涯強化学習は、生涯学習、より複雑なタスクを学習するための知識の構成、より効率的かつ高速な学習のための知識再利用への有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2022-12-21T15:49:20Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Multi-Agent Broad Reinforcement Learning for Intelligent Traffic Light
Control [21.87935026688773]
既存のマルチエージェントシステム(MAS)のアプローチは、主にマルチエージェントディープ強化学習(MADRL)に基づいている。
我々は,MASにおけるBLSの機能を探るため,マルチエージェントブロード強化学習(MABRL)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-08T14:04:09Z) - Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。
広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-01-28T13:07:11Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - On The Transferability of Deep-Q Networks [6.822707222147354]
Transfer Learningは、ディープニューラルネットワークのトレーニングの成功を特徴付けるハードルを克服することのできる、効率的な機械学習パラダイムである。
TLの利用は、SL(Supervised Learning)において十分に確立され、成功した訓練実践であるが、DRL(Deep Reinforcement Learning)の適用性は稀である。
本稿では,3種類のDeep-Q NetworksのDRLベンチマークおよび新しい制御タスクセット上での転送可能性について検討する。
論文 参考訳(メタデータ) (2021-10-06T10:29:37Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。