論文の概要: Mastering Visual Continuous Control: Improved Data-Augmented
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.09645v1
- Date: Tue, 20 Jul 2021 17:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 15:09:00.193061
- Title: Mastering Visual Continuous Control: Improved Data-Augmented
Reinforcement Learning
- Title(参考訳): 視覚的連続制御のマスタリング:データ提供強化学習の改善
- Authors: Denis Yarats, Rob Fergus, Alessandro Lazaric, Lerrel Pinto
- Abstract要約: 視覚連続制御のためのモデルなし強化学習アルゴリズムDrQ-v2を提案する。
DrQ-v2は、データ拡張を使用してピクセルから直接学習する、政治以外のアクター批判的なアプローチであるDrQの上に構築されている。
特にDrQ-v2は、ピクセル観察から直接、複雑なヒューマノイドの移動タスクを解くことができる。
- 参考スコア(独自算出の注目度): 114.35801511501639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DrQ-v2, a model-free reinforcement learning (RL) algorithm for
visual continuous control. DrQ-v2 builds on DrQ, an off-policy actor-critic
approach that uses data augmentation to learn directly from pixels. We
introduce several improvements that yield state-of-the-art results on the
DeepMind Control Suite. Notably, DrQ-v2 is able to solve complex humanoid
locomotion tasks directly from pixel observations, previously unattained by
model-free RL. DrQ-v2 is conceptually simple, easy to implement, and provides
significantly better computational footprint compared to prior work, with the
majority of tasks taking just 8 hours to train on a single GPU. Finally, we
publicly release DrQ-v2's implementation to provide RL practitioners with a
strong and computationally efficient baseline.
- Abstract(参考訳): 視覚連続制御のためのモデルフリー強化学習(RL)アルゴリズムであるDrQ-v2を提案する。
DrQ-v2は、データ拡張を使用してピクセルから直接学習する、政治以外のアクター批判的なアプローチであるDrQに基づいている。
我々はDeepMind Control Suiteで最先端の成果をもたらすいくつかの改善点を紹介した。
特に、DrQ-v2は、以前はモデルのないRLで達成されていなかったピクセル観察から直接、複雑なヒューマノイド移動タスクを解くことができる。
DrQ-v2は概念的にはシンプルで実装が容易で、前処理よりも計算フットプリントが大幅に向上し、ほとんどのタスクは1つのGPUでトレーニングするのにたった8時間しかかからない。
最後に、RL実践者に強力な計算効率のベースラインを提供するため、DrQ-v2の実装を公開します。
関連論文リスト
- Pretrained Visual Representations in Reinforcement Learning [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)をスクラッチから学習する視覚強化学習アルゴリズムの性能と、事前学習された視覚表現(PVR)を利用するものとの比較を行う。
ResNet18, DINOv2, Visual Cortex (VC) の3つのPVRに対して, 最先端のビジュアルRL法である Dormant Ratio Minimization (DRM) アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-07-24T12:53:26Z) - Extreme Q-Learning: MaxEnt RL without Entropy [88.97516083146371]
現代のDeep Reinforcement Learning (RL)アルゴリズムは、連続的な領域での計算が困難である最大Q値の推定を必要とする。
エクストリーム値理論(EVT)を用いた最大値を直接モデル化するオンラインおよびオフラインRLの新しい更新ルールを導入する。
EVTを使用することで、Extreme Q-Learningフレームワークをオンラインに導き、その結果、初めてオフラインのMaxEnt Q-learningアルゴリズムをオフラインにします。
論文 参考訳(メタデータ) (2023-01-05T23:14:38Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - BRECQ: Pushing the Limit of Post-Training Quantization by Block
Reconstruction [29.040991149922615]
PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。
本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。
初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
論文 参考訳(メタデータ) (2021-02-10T13:46:16Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z) - Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。