論文の概要: Understanding the effect of varying amounts of replay per step
- arxiv url: http://arxiv.org/abs/2302.10311v1
- Date: Mon, 20 Feb 2023 20:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 17:09:47.103079
- Title: Understanding the effect of varying amounts of replay per step
- Title(参考訳): 段階ごとに異なる量のリプレイの効果を理解する
- Authors: Animesh Kumar Paul and Videh Raj Nema
- Abstract要約: 本研究では,マウンテンカー環境におけるDQN(Deep Q-Network)というモデルフリーアルゴリズムにおいて,各ステップごとの様々なリプレイの効果について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning uses models to plan, where the predictions
and policies of an agent can be improved by using more computation without
additional data from the environment, thereby improving sample efficiency.
However, learning accurate estimates of the model is hard. Subsequently, the
natural question is whether we can get similar benefits as planning with
model-free methods. Experience replay is an essential component of many
model-free algorithms enabling sample-efficient learning and stability by
providing a mechanism to store past experiences for further reuse in the
gradient computational process. Prior works have established connections
between models and experience replay by planning with the latter. This involves
increasing the number of times a mini-batch is sampled and used for updates at
each step (amount of replay per step). We attempt to exploit this connection by
doing a systematic study on the effect of varying amounts of replay per step in
a well-known model-free algorithm: Deep Q-Network (DQN) in the Mountain Car
environment. We empirically show that increasing replay improves DQN's sample
efficiency, reduces the variation in its performance, and makes it more robust
to change in hyperparameters. Altogether, this takes a step toward a better
algorithm for deployment.
- Abstract(参考訳): モデルに基づく強化学習では、モデルを用いてエージェントの予測とポリシーを、環境からの追加データなしでより多くの計算を使用することで改善し、サンプル効率を向上させる。
しかし,モデルの正確な推定は困難である。
その後の自然な疑問は、モデルフリーのメソッドで計画するのと同じような利点を得られるかどうかである。
experience replayは、グラデーション計算プロセスのさらなる再利用のために過去の経験を保存するメカニズムを提供することで、サンプル効率のよい学習と安定性を実現する多くのモデルフリーアルゴリズムの重要なコンポーネントである。
先行研究は、モデルと、後者との計画による経験リプレイとのつながりを確立した。
これは、ミニバッチがサンプリングされ、各ステップで更新(ステップごとのリプレイ数)に使用される回数を増やすことを含む。
我々は,マウンテンカー環境におけるモデルフリーアルゴリズムであるdeep q-network (dqn) において,ステップ毎のリプレイ量が変動することの効果を体系的に研究することで,この関係を生かそうとする。
リプレイの増加はDQNのサンプル効率を向上し、その性能の変動を低減し、ハイパーパラメータの変化をより堅牢にすることを示す。
いずれにせよ、これはデプロイメントのためのより良いアルゴリズムへの一歩だ。
関連論文リスト
- Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - EsaCL: Efficient Continual Learning of Sparse Models [10.227171407348326]
連続的な学習設定の主な課題は、以前に学習したタスクを実行する方法を忘れずに、タスクのシーケンスを効率的に学習することである。
本研究では,モデルの予測力に悪影響を及ぼすことなく,冗長なパラメータを自動生成する,スパースモデル(EsaCL)の効率的な連続学習法を提案する。
論文 参考訳(メタデータ) (2024-01-11T04:59:44Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Measuring and Reducing Model Update Regression in Structured Prediction
for NLP [31.86240946966003]
後方互換性は、新しいモデルが前者によって正しく処理されたケースに回帰しないことを要求する。
本研究は、構造化予測タスクにおける更新回帰をモデル化する。
本稿では,構造化出力の特性を考慮し,単純かつ効果的なバックワード・コングルエント・リグレード(BCR)を提案する。
論文 参考訳(メタデータ) (2022-02-07T07:04:54Z) - Learning Expected Emphatic Traces for Deep RL [32.984880782688535]
オフポリシーサンプリングと経験リプレイは、サンプル効率を改善し、モデルフリーの時間差学習手法をスケールするための鍵となる。
リプレイと組み合わせることができるマルチステップ強調重み付けと、必要な強調重み付けを学習するための時間反転TD学習アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-07-12T13:14:03Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z) - Sample-efficient reinforcement learning using deep Gaussian processes [18.044018772331636]
強化学習(Reinforcement learning)は、試行錯誤を通じてタスクを完了するためのアクションを制御するためのフレームワークを提供する。
モデルに基づく強化学習効率は、世界力学をシミュレートする学習によって改善される。
合成の深さがモデル複雑性をもたらすのに対して、ダイナミックスに関する事前の知識を取り入れることで、滑らかさと構造がもたらされる、深いガウス過程を導入する。
論文 参考訳(メタデータ) (2020-11-02T13:37:57Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。