論文の概要: Paused Agent Replay Refresh
- arxiv url: http://arxiv.org/abs/2209.13398v1
- Date: Mon, 26 Sep 2022 11:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 16:10:45.850926
- Title: Paused Agent Replay Refresh
- Title(参考訳): 一時停止エージェントリプレイリフレッシュ
- Authors: Benjamin Parr
- Abstract要約: Paused Agent Replay Refresh (PARR)は、ターゲットネットワークのドロップイン置換である。
近似を必要とせずに、より複雑な学習アルゴリズムをサポートする。
モンテズマのリベンジではわずか30.9百万のアタリフレームで2500ポイントを獲得した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms have become more complex since the
invention of target networks. Unfortunately, target networks have not kept up
with this increased complexity, instead requiring approximate solutions to be
computationally feasible. These approximations increase noise in the Q-value
targets and in the replay sampling distribution. Paused Agent Replay Refresh
(PARR) is a drop-in replacement for target networks that supports more complex
learning algorithms without this need for approximation. Using a basic
Q-network architecture, and refreshing the novelty values, target values, and
replay sampling distribution, PARR gets 2500 points in Montezuma's Revenge
after only 30.9 million Atari frames. Finally, interpreting PARR in the context
of carbon-based learning offers a new reason for sleep.
- Abstract(参考訳): 強化学習アルゴリズムは、ターゲットネットワークの発明以来、より複雑になっている。
残念ながら、ターゲットネットワークはこの複雑さの増大に遅れず、計算的に実現可能な近似解を必要とする。
これらの近似はQ値目標とリプレイサンプリング分布のノイズを増加させる。
Paused Agent Replay Refresh(PARR)は、より複雑な学習アルゴリズムをサポートするターゲットネットワークのドロップイン置換である。
基本的なqネットワークアーキテクチャを使い、ノベルティ値、ターゲット値、リプレイサンプリング分布をリフレッシュすることで、わずか30.9万フレームのアタリフレームでモンテズマのリベンジ2500ポイントを獲得した。
最後に、PARRを炭素ベースの学習の文脈で解釈することは、睡眠の新たな理由となる。
関連論文リスト
- Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - Rotate the ReLU to implicitly sparsify deep networks [13.203765985718201]
本稿では,ReLUアクティベーションを回転させてアーキテクチャにさらなる自由度を与える,という新しいアイデアを提案する。
トレーニングによって回転が学習されるこのアクティベーションは、タスクに重要でないネットワーク内のこれらのパラメータ/フィルタの除去をもたらすことを示す。
論文 参考訳(メタデータ) (2022-06-01T13:38:45Z) - SAR Despeckling Using Overcomplete Convolutional Networks [53.99620005035804]
スペックルはSAR画像を劣化させるため、リモートセンシングにおいて重要な問題である。
近年の研究では、畳み込みニューラルネットワーク(CNN)が古典的解法よりも優れていることが示されている。
本研究は、受容場を制限することで低レベルの特徴を学習することに集中するために、過剰なCNNアーキテクチャを用いる。
本稿では,合成および実SAR画像の非特定化手法と比較して,提案手法により非特定化性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-31T15:55:37Z) - Hidden-Fold Networks: Random Recurrent Residuals Using Sparse Supermasks [1.0814638303152528]
ディープニューラルネットワーク(DNN)は過度にパラメータ化されているため、最近の研究で、高い精度でサブネットワークを含むことが判明した。
本稿では,これらの研究の行を高度に圧縮されながら正確なモデルにブレンドすることを提案する:Hedden-Fold Networks (HFNs)。
CIFAR100のResNet50と同等の性能を実現し、メモリは38.5倍、ImageNetのResNet34は26.8倍小さい。
論文 参考訳(メタデータ) (2021-11-24T08:24:31Z) - Improved CNN-based Learning of Interpolation Filters for Low-Complexity
Inter Prediction in Video Coding [5.46121027847413]
本稿では,ニューラルネットワークを用いた新しい予測手法を提案する。
新たなトレーニングフレームワークにより、各ネットワークブランチは特定の分数シフトに類似することができる。
Versatile Video Coding (VVC)テストモデルで実装されると、0.77%、1.27%、および2.25%のBDレートの節約が達成される。
論文 参考訳(メタデータ) (2021-06-16T16:48:01Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z) - Hybrid Backpropagation Parallel Reservoir Networks [8.944918753413827]
本稿では,貯水池のランダムな時間的特徴と深層ニューラルネットワークの読み出し能力と,バッチ正規化を併用した新しいハイブリッドネットワークを提案する。
我々の新しいネットワークはLSTMやGRUよりも優れていることを示す。
また, HBP-ESN M-Ring と呼ばれる新しいメタリング構造を組み込むことで, 1つの大きな貯水池に類似した性能を実現し, メモリ容量の最大化を図っている。
論文 参考訳(メタデータ) (2020-10-27T21:03:35Z) - A Deep-Unfolded Reference-Based RPCA Network For Video
Foreground-Background Separation [86.35434065681925]
本稿では,ロバスト主成分分析(RPCA)問題に対するディープアンフォールディングに基づくネットワーク設計を提案する。
既存の設計とは異なり,本手法は連続するビデオフレームのスパース表現間の時間的相関をモデル化することに焦点を当てている。
移動MNISTデータセットを用いた実験により、提案したネットワークは、ビデオフォアグラウンドとバックグラウンドの分離作業において、最近提案された最先端のRPCAネットワークより優れていることが示された。
論文 参考訳(メタデータ) (2020-10-02T11:40:09Z) - Munchausen Reinforcement Learning [50.396037940989146]
ブートストラップは強化学習(RL)の中核的なメカニズムである
この方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。
ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
論文 参考訳(メタデータ) (2020-07-28T18:30:23Z) - Supervised Learning in Temporally-Coded Spiking Neural Networks with
Approximate Backpropagation [0.021506382989223777]
本稿では,時間的に符号化された多層スパイキングネットワークのための教師付き学習手法を提案する。
この方法はバックプロパゲーションを模倣する強化信号を用いるが、計算集約性ははるかに低い。
シミュレーションされたMNIST手書き桁分類では、このルールで訓練された2層ネットワークは、同等のバックプロパゲーションベースの非スパイキングネットワークの性能と一致した。
論文 参考訳(メタデータ) (2020-07-27T03:39:49Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。