論文の概要: Paused Agent Replay Refresh
- arxiv url: http://arxiv.org/abs/2209.13398v1
- Date: Mon, 26 Sep 2022 11:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 16:10:45.850926
- Title: Paused Agent Replay Refresh
- Title(参考訳): 一時停止エージェントリプレイリフレッシュ
- Authors: Benjamin Parr
- Abstract要約: Paused Agent Replay Refresh (PARR)は、ターゲットネットワークのドロップイン置換である。
近似を必要とせずに、より複雑な学習アルゴリズムをサポートする。
モンテズマのリベンジではわずか30.9百万のアタリフレームで2500ポイントを獲得した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms have become more complex since the
invention of target networks. Unfortunately, target networks have not kept up
with this increased complexity, instead requiring approximate solutions to be
computationally feasible. These approximations increase noise in the Q-value
targets and in the replay sampling distribution. Paused Agent Replay Refresh
(PARR) is a drop-in replacement for target networks that supports more complex
learning algorithms without this need for approximation. Using a basic
Q-network architecture, and refreshing the novelty values, target values, and
replay sampling distribution, PARR gets 2500 points in Montezuma's Revenge
after only 30.9 million Atari frames. Finally, interpreting PARR in the context
of carbon-based learning offers a new reason for sleep.
- Abstract(参考訳): 強化学習アルゴリズムは、ターゲットネットワークの発明以来、より複雑になっている。
残念ながら、ターゲットネットワークはこの複雑さの増大に遅れず、計算的に実現可能な近似解を必要とする。
これらの近似はQ値目標とリプレイサンプリング分布のノイズを増加させる。
Paused Agent Replay Refresh(PARR)は、より複雑な学習アルゴリズムをサポートするターゲットネットワークのドロップイン置換である。
基本的なqネットワークアーキテクチャを使い、ノベルティ値、ターゲット値、リプレイサンプリング分布をリフレッシュすることで、わずか30.9万フレームのアタリフレームでモンテズマのリベンジ2500ポイントを獲得した。
最後に、PARRを炭素ベースの学習の文脈で解釈することは、睡眠の新たな理由となる。
関連論文リスト
- A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - Simplifying Deep Temporal Difference Learning [3.458933902627673]
安定性を維持しつつ,TDトレーニングの高速化と簡易化が可能であるかを検討する。
我々の重要な理論的結果は、LayerNormのような正規化技術が証明可能な収束性TDアルゴリズムが得られることを初めて示している。
これらの結果に触発され,より簡易なオンラインQ-LearningアルゴリズムであるPQNを提案する。
論文 参考訳(メタデータ) (2024-07-05T18:49:07Z) - Learning the Target Network in Function Space [23.111353943898536]
Lookahead-Replicate (LR) は新しい値関数近似アルゴリズムである。
LRは値関数の学習において収束挙動をもたらすことを示す。
また、LRベースのターゲットネットワーク更新により、Atariベンチマークの深いRLが大幅に改善されることを示す実験結果を示す。
論文 参考訳(メタデータ) (2024-06-03T23:10:35Z) - Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - SAR Despeckling Using Overcomplete Convolutional Networks [53.99620005035804]
スペックルはSAR画像を劣化させるため、リモートセンシングにおいて重要な問題である。
近年の研究では、畳み込みニューラルネットワーク(CNN)が古典的解法よりも優れていることが示されている。
本研究は、受容場を制限することで低レベルの特徴を学習することに集中するために、過剰なCNNアーキテクチャを用いる。
本稿では,合成および実SAR画像の非特定化手法と比較して,提案手法により非特定化性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-31T15:55:37Z) - Hidden-Fold Networks: Random Recurrent Residuals Using Sparse Supermasks [1.0814638303152528]
ディープニューラルネットワーク(DNN)は過度にパラメータ化されているため、最近の研究で、高い精度でサブネットワークを含むことが判明した。
本稿では,これらの研究の行を高度に圧縮されながら正確なモデルにブレンドすることを提案する:Hedden-Fold Networks (HFNs)。
CIFAR100のResNet50と同等の性能を実現し、メモリは38.5倍、ImageNetのResNet34は26.8倍小さい。
論文 参考訳(メタデータ) (2021-11-24T08:24:31Z) - Improved CNN-based Learning of Interpolation Filters for Low-Complexity
Inter Prediction in Video Coding [5.46121027847413]
本稿では,ニューラルネットワークを用いた新しい予測手法を提案する。
新たなトレーニングフレームワークにより、各ネットワークブランチは特定の分数シフトに類似することができる。
Versatile Video Coding (VVC)テストモデルで実装されると、0.77%、1.27%、および2.25%のBDレートの節約が達成される。
論文 参考訳(メタデータ) (2021-06-16T16:48:01Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z) - Hybrid Backpropagation Parallel Reservoir Networks [8.944918753413827]
本稿では,貯水池のランダムな時間的特徴と深層ニューラルネットワークの読み出し能力と,バッチ正規化を併用した新しいハイブリッドネットワークを提案する。
我々の新しいネットワークはLSTMやGRUよりも優れていることを示す。
また, HBP-ESN M-Ring と呼ばれる新しいメタリング構造を組み込むことで, 1つの大きな貯水池に類似した性能を実現し, メモリ容量の最大化を図っている。
論文 参考訳(メタデータ) (2020-10-27T21:03:35Z) - A Deep-Unfolded Reference-Based RPCA Network For Video
Foreground-Background Separation [86.35434065681925]
本稿では,ロバスト主成分分析(RPCA)問題に対するディープアンフォールディングに基づくネットワーク設計を提案する。
既存の設計とは異なり,本手法は連続するビデオフレームのスパース表現間の時間的相関をモデル化することに焦点を当てている。
移動MNISTデータセットを用いた実験により、提案したネットワークは、ビデオフォアグラウンドとバックグラウンドの分離作業において、最近提案された最先端のRPCAネットワークより優れていることが示された。
論文 参考訳(メタデータ) (2020-10-02T11:40:09Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。