論文の概要: Fast and Data-Efficient Training of Rainbow: an Experimental Study on
Atari
- arxiv url: http://arxiv.org/abs/2111.10247v1
- Date: Fri, 19 Nov 2021 14:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 15:56:04.285002
- Title: Fast and Data-Efficient Training of Rainbow: an Experimental Study on
Atari
- Title(参考訳): レインボーの高速かつデータ効率の良いトレーニング--アタリの実験的研究
- Authors: Dominik Schmidt, Thomas Schmied
- Abstract要約: 我々はRainbowの改良版を提案し、競合性能を維持しながら、Rainbowのデータ、トレーニング時間、計算要求を大幅に削減することを目指している。
改良版のRainbowは、従来のRainbowに近い中央値の人間の正規化スコアに到達し、20倍のデータを使用でき、単一のGPU上でのトレーニング時間は7.5時間しか必要ありません。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Across the Arcade Learning Environment, Rainbow achieves a level of
performance competitive with humans and modern RL algorithms. However,
attaining this level of performance requires large amounts of data and hardware
resources, making research in this area computationally expensive and use in
practical applications often infeasible. This paper's contribution is
threefold: We (1) propose an improved version of Rainbow, seeking to
drastically reduce Rainbow's data, training time, and compute requirements
while maintaining its competitive performance; (2) we empirically demonstrate
the effectiveness of our approach through experiments on the Arcade Learning
Environment, and (3) we conduct a number of ablation studies to investigate the
effect of the individual proposed modifications. Our improved version of
Rainbow reaches a median human normalized score close to classic Rainbow's,
while using 20 times less data and requiring only 7.5 hours of training time on
a single GPU. We also provide our full implementation including pre-trained
models.
- Abstract(参考訳): アーケード学習環境全体では、Rainbowは人間や現代のRLアルゴリズムと競合するレベルのパフォーマンスを達成する。
しかし、このレベルの性能を達成するには大量のデータとハードウェアリソースが必要であり、この分野の研究は計算コストが高く、実用的な用途での使用は不可能であることが多い。
本稿では,(1)Rainbowのデータ,トレーニング時間,および計算要求を大幅に削減し,競争性能を維持しつつ,Rainbowの改良版を提案すること,(2)アーケード学習環境における実験を通じて,アプローチの有効性を実証的に実証すること,(3)提案した修正がもたらす影響について,多くのアブレーション研究を実施していること,の3点について述べる。
改良版のRainbowは、従来のRainbowに近い中央値の人間の正規化スコアに到達し、20倍のデータを使用でき、単一のGPU上でのトレーニング時間は7.5時間しか必要ありません。
また、事前訓練されたモデルを含む完全な実装も提供します。
関連論文リスト
- Beyond The Rainbow: High Performance Deep Reinforcement Learning On A Desktop PC [6.812247730094933]
本稿では,RL文学からレインボーDQNへの6つの改良点を統合する新しいアルゴリズムであるBeyond The Rainbow(BTR)を提案する。
我々は、複雑な3Dゲームを扱うBTRの能力を実証し、スーパーマリオギャラクシー、マリオカート、モルタルコンバットをプレイするエージェントのトレーニングに成功した。
計算効率を念頭に設計したBTRでは、12時間以内に2億のAtariフレーム上のデスクトップPCでエージェントを訓練することができる。
論文 参考訳(メタデータ) (2024-11-06T10:42:04Z) - Open RL Benchmark: Comprehensive Tracked Experiments for Reinforcement
Learning [41.971465819626005]
我々は、完全に追跡されたRL実験のセットであるOpen RL Benchmarkを紹介する。
Open RL Benchmarkはコミュニティ主導で、誰でもダウンロード、使用、データへのコントリビューションが可能です。
それぞれの実験が正確に再現可能であることを保証するため、特別に注意が払われる。
論文 参考訳(メタデータ) (2024-02-05T14:32:00Z) - Train a Real-world Local Path Planner in One Hour via Partially
Decoupled Reinforcement Learning and Vectorized Diversity [8.068886870457561]
深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。
実世界におけるそのような応用は、DRLの訓練効率と一般化能力の不足により、非常に制限されている。
アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowで構成されたColorというソリューションが提案されている。
論文 参考訳(メタデータ) (2023-05-07T03:39:31Z) - Benchopt: Reproducible, efficient and collaborative optimization
benchmarks [67.29240500171532]
Benchoptは、機械学習で最適化ベンチマークを自動化、再生、公開するためのフレームワークである。
Benchoptは実験を実行、共有、拡張するための既製のツールを提供することで、コミュニティのベンチマークを簡単にする。
論文 参考訳(メタデータ) (2022-06-27T16:19:24Z) - EfficientNeRF: Efficient Neural Radiance Fields [63.76830521051605]
我々は,3次元シーンを表現し,新しい映像を合成する効率的なNeRF法として,EfficientNeRFを提案する。
本手法は, トレーニング時間の88%以上を短縮し, 200FPS以上のレンダリング速度を達成できるが, 競争精度は高い。
論文 参考訳(メタデータ) (2022-06-02T05:36:44Z) - Reliable validation of Reinforcement Learning Benchmarks [1.2031796234206134]
強化学習(Reinforcement Learning, RL)は、ゲームAIとAI全般において、最もダイナミックな研究分野の1つである。
Atariのような異なるアルゴリズムを比較するためにスコアが使用されるベンチマーク環境はたくさんあります。
実験結果の検証を行うために,元の実験データへのアクセスを提供することにより,この状況を改善することを提案する。
論文 参考訳(メタデータ) (2022-03-02T12:55:27Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z) - Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文 参考訳(メタデータ) (2020-12-16T09:46:58Z) - Revisiting Rainbow: Promoting more Insightful and Inclusive Deep
Reinforcement Learning Research [15.710674189908614]
我々は、コミュニティが大規模環境に重点を置いているにもかかわらず、伝統的な小規模環境は価値ある科学的洞察を与えることができると論じている。
我々はRainbowアルゴリズムを導入した論文を再検討し、Rainbowが使用するアルゴリズムに関するいくつかの新しい知見を提示する。
論文 参考訳(メタデータ) (2020-11-20T15:23:40Z) - Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with
Asynchronous Reinforcement Learning [68.2099740607854]
サンプルファクトリー(Sample Factory)は、シングルマシン設定に最適化された高スループットトレーニングシステムである。
我々のアーキテクチャは、非常に効率的で非同期なGPUベースのサンプリングと、オフポリシー補正技術を組み合わせています。
我々は,Sample Factoryを拡張して,セルフプレイと人口ベーストレーニングをサポートし,これらのテクニックを多人数一対一シューティングゲームのための高度なエージェントの訓練に応用する。
論文 参考訳(メタデータ) (2020-06-21T10:00:23Z) - Learn to Interpret Atari Agents [106.21468537372995]
リージョン・センシティブ・レインボー(Rerea-sensitive Rainbow、RS-Rainbow)は、Qネットワークの強力なエージェントであるレインボーをベースとした、エンドツーエンドのトレーニング可能なネットワークである。
提案するエージェントは地域感応性レインボー (RS-Rainbow) と名付けられ, 強力なQネットワークエージェントであるレインボーをベースとしたエンド・ツー・エンドのトレーニング可能なネットワークである。
論文 参考訳(メタデータ) (2018-12-29T03:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。