論文の概要: Can Increasing Input Dimensionality Improve Deep Reinforcement Learning?
- arxiv url: http://arxiv.org/abs/2003.01629v2
- Date: Sat, 27 Jun 2020 03:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 22:24:19.736887
- Title: Can Increasing Input Dimensionality Improve Deep Reinforcement Learning?
- Title(参考訳): 入力次元の増大は深層強化学習を改善するか?
- Authors: Kei Ota, Tomoaki Oiki, Devesh K. Jha, Toshisada Mariyama, Daniel
Nikovski
- Abstract要約: 本稿では,ニューラルネットを用いたオンライン特徴抽出ネットワーク(OFENet)を提案する。
我々はRLエージェントが低次元状態観測よりも高次元表現でより効率的に学習できることを示す。
- 参考スコア(独自算出の注目度): 15.578423102700764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) algorithms have recently achieved remarkable
successes in various sequential decision making tasks, leveraging advances in
methods for training large deep networks. However, these methods usually
require large amounts of training data, which is often a big problem for
real-world applications. One natural question to ask is whether learning good
representations for states and using larger networks helps in learning better
policies. In this paper, we try to study if increasing input dimensionality
helps improve performance and sample efficiency of model-free deep RL
algorithms. To do so, we propose an online feature extractor network (OFENet)
that uses neural nets to produce good representations to be used as inputs to
deep RL algorithms. Even though the high dimensionality of input is usually
supposed to make learning of RL agents more difficult, we show that the RL
agents in fact learn more efficiently with the high-dimensional representation
than with the lower-dimensional state observations. We believe that stronger
feature propagation together with larger networks (and thus larger search
space) allows RL agents to learn more complex functions of states and thus
improves the sample efficiency. Through numerical experiments, we show that the
proposed method outperforms several other state-of-the-art algorithms in terms
of both sample efficiency and performance. Codes for the proposed method are
available at http://www.merl.com/research/license/OFENet .
- Abstract(参考訳): 近年,大規模深層ネットワークの訓練手法の進歩を活用し,様々な逐次意思決定タスクにおいて,深部強化学習(RL)アルゴリズムが目覚ましい成功を収めている。
しかし、これらの手法は通常大量のトレーニングデータを必要とするため、現実のアプリケーションでは大きな問題となることが多い。
1つの自然な疑問は、状態のよい表現を学び、より大きなネットワークを使うことがより良いポリシーを学ぶのに役立つかどうかである。
本稿では,入力次元の増大がモデルフリーな深部RLアルゴリズムの性能向上とサンプル効率の向上に役立つかどうかを検討する。
そこで我々は,ニューラルネットを用いて,ディープrlアルゴリズムの入力として使用する良質な表現を生成するオンライン特徴抽出ネットワーク(ofenet)を提案する。
入力の高次元性はrlエージェントの学習をより困難にすることが通常想定されているが、rlエージェントは低次元の状態観察よりも高次元表現により効率的に学習できることが示されている。
我々は、より強力な特徴伝播と、より大きなネットワーク(そしてより広い検索空間)により、RLエージェントは状態のより複雑な関数を学習し、サンプル効率を向上させることができると考えている。
数値実験により,提案手法はサンプル効率と性能の両面で,他の最先端アルゴリズムよりも優れていることを示す。
提案するメソッドのコードはhttp://www.merl.com/research/license/ofenetで利用可能である。
関連論文リスト
- SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning [11.304750795377657]
確率的図形モデル(PGM)を用いた人間の直観を符号化するフレームワークShireを提案する。
ShiREは、評価対象環境の25~78%のサンプル効率を、無視可能なオーバーヘッドコストで達成します。
論文 参考訳(メタデータ) (2024-09-16T04:46:22Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - Enhancing data efficiency in reinforcement learning: a novel imagination
mechanism based on mesh information propagation [0.3729614006275886]
Imagination Mechanism (IM) と呼ばれる新しいメッシュ情報伝達機構を導入する。
IMは、単一のサンプルによって生成された情報を、エピソード間で異なる状態に効果的にブロードキャストすることを可能にする。
汎用性を促進するため,他の広く採用されているRLアルゴリズムにシームレスかつ流動的に統合可能なプラグイン・アンド・プレイモジュールとして機能するIMを拡張した。
論文 参考訳(メタデータ) (2023-09-25T16:03:08Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Scalable Deep Reinforcement Learning Algorithms for Mean Field Games [60.550128966505625]
平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。
本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。
2つ目はオンライン混合方式である。
論文 参考訳(メタデータ) (2022-03-22T18:10:32Z) - Maximum Entropy Model-based Reinforcement Learning [0.0]
この研究は、探索技術とモデルに基づく強化学習を結びつけている。
モデルベースアプローチの特徴を考慮した新しい探索手法を考案した。
また,本手法がモデルベースアルゴリズムDreamerの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-12-02T13:07:29Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Training Larger Networks for Deep Reinforcement Learning [18.193180866998333]
ネットワーク容量の増加は性能を向上しないことを示す。
本稿では,1)DenseNet接続の広いネットワーク,2)RLのトレーニングから表現学習を分離する,3)オーバーフィッティング問題を軽減するための分散トレーニング手法を提案する。
この3倍の手法を用いることで、非常に大きなネットワークをトレーニングでき、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T02:16:54Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。