論文の概要: Faster Deep Reinforcement Learning with Slower Online Network
- arxiv url: http://arxiv.org/abs/2112.05848v3
- Date: Mon, 17 Apr 2023 19:17:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 19:19:10.613235
- Title: Faster Deep Reinforcement Learning with Slower Online Network
- Title(参考訳): Slower Online Networkによるより高速な深層強化学習
- Authors: Kavosh Asadi, Rasool Fakoor, Omer Gottesman, Taesup Kim, Michael L.
Littman, Alexander J. Smola
- Abstract要約: DQNとRainbowという2つの人気のあるディープ強化学習アルゴリズムに、オンラインネットワークをターゲットネットワークの近くに留まらせるインセンティブを与えるアップデートを与えました。
その結果、DQN ProとRainbow Proと呼ばれるエージェントは、Atariベンチマークで元のエージェントよりも大幅に性能が向上した。
- 参考スコア(独自算出の注目度): 90.34900072689618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning algorithms often use two networks for value
function optimization: an online network, and a target network that tracks the
online network with some delay. Using two separate networks enables the agent
to hedge against issues that arise when performing bootstrapping. In this paper
we endow two popular deep reinforcement learning algorithms, namely DQN and
Rainbow, with updates that incentivize the online network to remain in the
proximity of the target network. This improves the robustness of deep
reinforcement learning in presence of noisy updates. The resultant agents,
called DQN Pro and Rainbow Pro, exhibit significant performance improvements
over their original counterparts on the Atari benchmark demonstrating the
effectiveness of this simple idea in deep reinforcement learning. The code for
our paper is available here:
Github.com/amazon-research/fast-rl-with-slow-updates.
- Abstract(参考訳): 深層強化学習アルゴリズムは、オンラインネットワークと、ある程度の遅延でオンラインネットワークを追跡するターゲットネットワークという、価値関数最適化に2つのネットワークを使用することが多い。
2つの別々のネットワークを使用することで、エージェントはブートストラップを行う際に発生する問題に対してヘッジすることができる。
本稿では,dqn と rainbow という2つの深層強化学習アルゴリズムを提案し,オンラインネットワークがターゲットネットワークの近傍に留まるようインセンティブを与える更新を行った。
これにより、ノイズの多い更新の存在下での深層強化学習の堅牢性が改善される。
結果、DQN ProとRainbow Proと呼ばれるエージェントは、Atariベンチマークで元のエージェントよりも大幅にパフォーマンスが向上し、この単純なアイデアが深層強化学習に有効であることを実証した。
私たちの論文のコードは、github.com/amazon-research/fast-rl-with-slow-updatesで入手できる。
関連論文リスト
- Simplifying Deep Temporal Difference Learning [3.458933902627673]
安定性を維持しつつ,TDトレーニングの高速化と簡易化が可能であるかを検討する。
我々の重要な理論的結果は、LayerNormのような正規化技術が証明可能な収束性TDアルゴリズムが得られることを初めて示している。
これらの結果に触発され,より簡易なオンラインQ-LearningアルゴリズムであるPQNを提案する。
論文 参考訳(メタデータ) (2024-07-05T18:49:07Z) - Tempo: Confidentiality Preservation in Cloud-Based Neural Network
Training [8.187538747666203]
クラウドディープラーニングプラットフォームは、計算リソースが不足している顧客に対して、費用対効果の高いディープニューラルネットワーク(DNN)トレーニングを提供する。
近年、研究者は、CPU信頼実行環境(TEE)を活用して、ディープラーニングにおけるデータのプライバシ保護を模索している。
本稿では、TEEと分散GPUと連携するクラウドベースの初のディープラーニングシステムであるTempoについて述べる。
論文 参考訳(メタデータ) (2024-01-21T15:57:04Z) - Dynamic Sparse Training for Deep Reinforcement Learning [36.66889208433228]
我々は,ニューラルネットワークをスクラッチから切り離した深層強化学習エージェントを動的に訓練する試みを初めて提案する。
私たちのアプローチは、既存の深層強化学習アルゴリズムに簡単に統合できます。
我々は,オープンAI体育連続制御タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-08T09:57:20Z) - Training Larger Networks for Deep Reinforcement Learning [18.193180866998333]
ネットワーク容量の増加は性能を向上しないことを示す。
本稿では,1)DenseNet接続の広いネットワーク,2)RLのトレーニングから表現学習を分離する,3)オーバーフィッティング問題を軽減するための分散トレーニング手法を提案する。
この3倍の手法を用いることで、非常に大きなネットワークをトレーニングでき、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T02:16:54Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z) - ShiftAddNet: A Hardware-Inspired Deep Network [87.18216601210763]
ShiftAddNetはエネルギー効率のよい乗算レスディープニューラルネットワークである。
エネルギー効率のよい推論とトレーニングの両方につながるが、表現能力は損なわれない。
ShiftAddNetは、DNNのトレーニングと推論において、80%以上のハードウェア量子化されたエネルギーコストを積極的に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2020-10-24T05:09:14Z) - Hardware Accelerator for Adversarial Attacks on Deep Learning Neural
Networks [7.20382137043754]
強靭な物理的摂動を生成するために, 対向攻撃ネットワークアルゴリズムのクラスが提案されている。
本稿では,メムリスタクロスバーアレーをベースとした敵攻撃用ハードウェアアクセラレータを提案する。
論文 参考訳(メタデータ) (2020-08-03T21:55:41Z) - Fully Convolutional Networks for Continuous Sign Language Recognition [83.85895472824221]
連続手話認識は、空間次元と時間次元の両方の学習を必要とする困難なタスクである。
本稿では,オンラインSLRのための完全畳み込みネットワーク (FCN) を提案し,弱い注釈付きビデオシーケンスから空間的特徴と時間的特徴を同時に学習する。
論文 参考訳(メタデータ) (2020-07-24T08:16:37Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z) - Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve
Adversarial Robustness [79.47619798416194]
Learn2Perturbは、ディープニューラルネットワークの対角的堅牢性を改善するために、エンドツーエンドの機能摂動学習アプローチである。
予測最大化にインスパイアされ、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-03-02T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。