論文の概要: Human-Level Control without Server-Grade Hardware
- arxiv url: http://arxiv.org/abs/2111.01264v1
- Date: Mon, 1 Nov 2021 21:15:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 14:03:42.285763
- Title: Human-Level Control without Server-Grade Hardware
- Title(参考訳): サーバグレードハードウェアによるヒューマンレベル制御
- Authors: Brett Daley and Christopher Amato
- Abstract要約: Deep Q-Network (DQN)は強化学習の大きなマイルストーンとなった。
DQNのAtari 2600実験は、完全な複製に費用がかかるままである。
このことは、最先端のハードウェアや大規模なクラウドコンピューティングリソースにアクセスできない研究者にとって、大きな障壁となる。
NVIDIA GeForce GTX 1080 GPUを1つだけで実装することで、200万フレームのAtari実験のトレーニング時間を25時間から9時間に短縮します。
- 参考スコア(独自算出の注目度): 20.531576904743282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Q-Network (DQN) marked a major milestone for reinforcement learning,
demonstrating for the first time that human-level control policies could be
learned directly from raw visual inputs via reward maximization. Even years
after its introduction, DQN remains highly relevant to the research community
since many of its innovations have been adopted by successor methods.
Nevertheless, despite significant hardware advances in the interim, DQN's
original Atari 2600 experiments remain costly to replicate in full. This poses
an immense barrier to researchers who cannot afford state-of-the-art hardware
or lack access to large-scale cloud computing resources. To facilitate improved
access to deep reinforcement learning research, we introduce a DQN
implementation that leverages a novel concurrent and synchronized execution
framework designed to maximally utilize a heterogeneous CPU-GPU desktop system.
With just one NVIDIA GeForce GTX 1080 GPU, our implementation reduces the
training time of a 200-million-frame Atari experiment from 25 hours to just 9
hours. The ideas introduced in our paper should be generalizable to a large
number of off-policy deep reinforcement learning methods.
- Abstract(参考訳): ディープQネットワーク(DQN)は強化学習の大きなマイルストーンであり、人間レベルの制御ポリシーが報酬の最大化を通じて生の視覚入力から直接学習できることを初めて実証した。
導入から何年も経っても、dqnは多くのイノベーションが後継手法に採用されているため、dqnは研究コミュニティと非常に関係がある。
それでも、ハードウェアの大幅な進歩にもかかわらず、DQNの最初のAtari 2600実験は完全な複製に費用がかかるままであった。
これは、最先端のハードウェアや大規模なクラウドコンピューティングリソースにアクセスできない研究者にとって、大きな障壁となる。
そこで本研究では,CPU-GPUデスクトップシステムを最大限活用するために設計された,並列かつ同期化された新しい実行フレームワークを活用したDQN実装を提案する。
NVIDIA GeForce GTX 1080 GPUを1つだけで実装することで、200万フレームのAtari実験のトレーニング時間を25時間から9時間に短縮します。
我々の論文で紹介されたアイデアは、多くのオフポリシー深層強化学習法に一般化されるべきである。
関連論文リスト
- Simplifying Deep Temporal Difference Learning [3.458933902627673]
安定性を維持しつつ,TDトレーニングの高速化と簡易化が可能であるかを検討する。
我々の重要な理論的結果は、LayerNormのような正規化技術が証明可能な収束性TDアルゴリズムが得られることを初めて示している。
これらの結果に触発され,より簡易なオンラインQ-LearningアルゴリズムであるPQNを提案する。
論文 参考訳(メタデータ) (2024-07-05T18:49:07Z) - Katakomba: Tools and Benchmarks for Data-Driven NetHack [52.0035089982277]
NetHackは強化学習研究のフロンティアとして知られている。
採用には、リソースワイド、実装ワイド、ベンチマークワイドの3つの大きな障害がある、と私たちは主張しています。
オフラインの強化学習コミュニティに慣れ親しんだワークフローの基礎を提供するオープンソースライブラリを開発した。
論文 参考訳(メタデータ) (2023-06-14T22:50:25Z) - Efficient Off-Policy Reinforcement Learning via Brain-Inspired Computing [9.078553427792183]
そこで本稿では,脳特性を模倣した非政治的価値に基づく超次元強化学習であるQHDを提案する。
QHDは、未知の環境で最適なポリシーを学ぶために、軽量な脳誘発モデルに依存している。
評価の結果,リアルタイム学習におけるQHD能力は,DQNよりも34.6倍,学習品質が大幅に向上した。
論文 参考訳(メタデータ) (2022-05-14T05:50:54Z) - Deep Reinforcement Learning with Spiking Q-learning [51.386945803485084]
スパイクニューラルネットワーク(SNN)は、少ないエネルギー消費で人工知能(AI)を実現することが期待されている。
SNNと深部強化学習(RL)を組み合わせることで、現実的な制御タスクに有望なエネルギー効率の方法を提供する。
論文 参考訳(メタデータ) (2022-01-21T16:42:11Z) - RAPID-RL: A Reconfigurable Architecture with Preemptive-Exits for
Efficient Deep-Reinforcement Learning [7.990007201671364]
効率的な深部RL(RAPID-RL)のためのプリエンプティブ出口を持つ再構成可能なアーキテクチャを提案する。
RAPID-RLは入力の難易度に基づいてプリエンプティブ層の条件付き活性化を可能にする。
RAPID-RL は Atari (Drone Navigation) タスクにおいて 0.88x (0.91x) 以上の性能を維持しながら, 演算数 0.34x (0.25x) を発生させることを示す。
論文 参考訳(メタデータ) (2021-09-16T21:30:40Z) - Mastering Visual Continuous Control: Improved Data-Augmented
Reinforcement Learning [114.35801511501639]
視覚連続制御のためのモデルなし強化学習アルゴリズムDrQ-v2を提案する。
DrQ-v2は、データ拡張を使用してピクセルから直接学習する、政治以外のアクター批判的なアプローチであるDrQの上に構築されている。
特にDrQ-v2は、ピクセル観察から直接、複雑なヒューマノイドの移動タスクを解くことができる。
論文 参考訳(メタデータ) (2021-07-20T17:29:13Z) - Revisiting Rainbow: Promoting more Insightful and Inclusive Deep
Reinforcement Learning Research [15.710674189908614]
我々は、コミュニティが大規模環境に重点を置いているにもかかわらず、伝統的な小規模環境は価値ある科学的洞察を与えることができると論じている。
我々はRainbowアルゴリズムを導入した論文を再検討し、Rainbowが使用するアルゴリズムに関するいくつかの新しい知見を提示する。
論文 参考訳(メタデータ) (2020-11-20T15:23:40Z) - Munchausen Reinforcement Learning [50.396037940989146]
ブートストラップは強化学習(RL)の中核的なメカニズムである
この方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。
ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
論文 参考訳(メタデータ) (2020-07-28T18:30:23Z) - Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with
Asynchronous Reinforcement Learning [68.2099740607854]
サンプルファクトリー(Sample Factory)は、シングルマシン設定に最適化された高スループットトレーニングシステムである。
我々のアーキテクチャは、非常に効率的で非同期なGPUベースのサンプリングと、オフポリシー補正技術を組み合わせています。
我々は,Sample Factoryを拡張して,セルフプレイと人口ベーストレーニングをサポートし,これらのテクニックを多人数一対一シューティングゲームのための高度なエージェントの訓練に応用する。
論文 参考訳(メタデータ) (2020-06-21T10:00:23Z) - Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。