論文の概要: Revisiting Rainbow: Promoting more Insightful and Inclusive Deep
Reinforcement Learning Research
- arxiv url: http://arxiv.org/abs/2011.14826v2
- Date: Fri, 21 May 2021 19:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:12:42.082697
- Title: Revisiting Rainbow: Promoting more Insightful and Inclusive Deep
Reinforcement Learning Research
- Title(参考訳): レインボーの再考: より洞察的で包括的な深層強化学習研究を促進する
- Authors: Johan S. Obando-Ceron and Pablo Samuel Castro
- Abstract要約: 我々は、コミュニティが大規模環境に重点を置いているにもかかわらず、伝統的な小規模環境は価値ある科学的洞察を与えることができると論じている。
我々はRainbowアルゴリズムを導入した論文を再検討し、Rainbowが使用するアルゴリズムに関するいくつかの新しい知見を提示する。
- 参考スコア(独自算出の注目度): 15.710674189908614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the introduction of DQN, a vast majority of reinforcement learning
research has focused on reinforcement learning with deep neural networks as
function approximators. New methods are typically evaluated on a set of
environments that have now become standard, such as Atari 2600 games. While
these benchmarks help standardize evaluation, their computational cost has the
unfortunate side effect of widening the gap between those with ample access to
computational resources, and those without. In this work we argue that, despite
the community's emphasis on large-scale environments, the traditional
small-scale environments can still yield valuable scientific insights and can
help reduce the barriers to entry for underprivileged communities. To
substantiate our claims, we empirically revisit the paper which introduced the
Rainbow algorithm [Hessel et al., 2018] and present some new insights into the
algorithms used by Rainbow.
- Abstract(参考訳): dqnの導入以来、強化学習研究の大部分は、深層ニューラルネットワークを近似関数として強化学習に焦点を当てている。
新しい手法は通常、atari 2600ゲームなど、現在標準となっている一連の環境上で評価される。
これらのベンチマークは評価を標準化するのに役立つが、計算コストは計算リソースへのアクセスが豊富である人々と計算リソースのない人の間にギャップを広げる不運な副作用を持っている。
この研究において、コミュニティが大規模環境に重点を置いているにもかかわらず、従来の小規模環境は価値ある科学的洞察を得ることができ、貧弱なコミュニティへの参入障壁を減らすのに役立つと論じている。
我々の主張を裏付けるために、Rainbowアルゴリズム(Hessel et al., 2018)を導入した論文を実証的に再検討し、Rainbowが使用するアルゴリズムに関する新たな洞察を提示する。
関連論文リスト
- Efficient Exploration in Deep Reinforcement Learning: A Novel Bayesian Actor-Critic Algorithm [0.195804735329484]
強化学習(RL)と深層強化学習(DRL)は破壊する可能性があり、我々が世界と対話する方法を既に変えている。
適用可能性の重要な指標の1つは、実世界のシナリオでスケールして機能する能力である。
論文 参考訳(メタデータ) (2024-08-19T14:50:48Z) - ContainerGym: A Real-World Reinforcement Learning Benchmark for Resource
Allocation [1.6058099298620425]
ContainerGymは、実世界の産業資源割り当てタスクにインスパイアされた強化学習のためのベンチマークである。
提案したベンチマークは、実世界のシーケンシャルな意思決定問題でよく遭遇する課題をエンコードする。
様々な難易度の問題をインスタンス化するように構成することもできる。
論文 参考訳(メタデータ) (2023-07-06T13:44:29Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Interpretable Option Discovery using Deep Q-Learning and Variational
Autoencoders [9.432068833600884]
DVQNアルゴリズムは、オプションベースの強化学習における開始条件と終了条件を特定するための有望なアプローチである。
実験により、DVQNアルゴリズムは自動開始と終了で、Rainbowに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-10-03T21:08:39Z) - The Web Is Your Oyster -- Knowledge-Intensive NLP against a Very Large
Web Corpus [76.9522248303716]
我々は,既存のKI-NLPタスクを評価するための新しいセットアップを提案し,背景コーパスをユニバーサルなWebスナップショットに一般化する。
当初Wikipediaで開発された標準のKI-NLPベンチマークであるKILTを再利用し,CCNetのサブセットであるSphere corpusの使用をシステムに依頼した。
カバー範囲の潜在的なギャップ、スケールの課題、構造の欠如、品質の低下にもかかわらず、Sphereからの検索によって、最新の最先端のシステムがウィキペディアベースのモデルに適合し、さらに優れています。
論文 参考訳(メタデータ) (2021-12-18T13:15:34Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Learning Intrinsic Symbolic Rewards in Reinforcement Learning [7.101885582663675]
低次元のシンボル木の形で高密度報酬を発見する方法を提案する。
得られた高密度報酬は、ベンチマークタスクを解くためのRLポリシーに有効な信号であることを示す。
論文 参考訳(メタデータ) (2020-10-08T00:02:46Z) - Munchausen Reinforcement Learning [50.396037940989146]
ブートストラップは強化学習(RL)の中核的なメカニズムである
この方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。
ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
論文 参考訳(メタデータ) (2020-07-28T18:30:23Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - Importance of using appropriate baselines for evaluation of
data-efficiency in deep reinforcement learning for Atari [0.0]
実際の効率の改善は、アルゴリズムが各データサンプルのさらなるトレーニング更新を可能にすることで達成された。
本論文では, 改良DQNに類似したエージェントを, 深部強化学習のサンプル効率向上を目的とした今後の研究のベースラインとして用いるべきであると論じる。
論文 参考訳(メタデータ) (2020-03-23T10:59:04Z) - Robust Pruning at Initialization [61.30574156442608]
計算リソースが限られているデバイス上で、機械学習アプリケーションを使用するための、より小さく、エネルギー効率のよいニューラルネットワークの必要性が高まっている。
ディープNNにとって、このような手順はトレーニングが困難であり、例えば、ひとつの層が完全に切断されるのを防ぐことができないため、満足できないままである。
論文 参考訳(メタデータ) (2020-02-19T17:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。