論文の概要: Measuring Progress in Deep Reinforcement Learning Sample Efficiency
- arxiv url: http://arxiv.org/abs/2102.04881v1
- Date: Tue, 9 Feb 2021 15:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 14:49:57.822908
- Title: Measuring Progress in Deep Reinforcement Learning Sample Efficiency
- Title(参考訳): 深層強化学習のサンプル効率測定の進歩
- Authors: Florian E. Dorner
- Abstract要約: 現在のベンチマークでは、安価で簡単に大量のサンプルを生成できる。
実世界のプロセスのシミュレーションは、しばしば違法に困難であり、実世界の体験の収集にはコストがかかるため、サンプル効率はDRLの経済的応用にとって重要な指標である。
各種アルゴリズムが与えられた性能レベルに達するために必要なサンプル数を比較することで,Atariゲームにおけるサンプル効率と連続制御タスクの進捗状況について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sampled environment transitions are a critical input to deep reinforcement
learning (DRL) algorithms. Current DRL benchmarks often allow for the cheap and
easy generation of large amounts of samples such that perceived progress in DRL
does not necessarily correspond to improved sample efficiency. As simulating
real world processes is often prohibitively hard and collecting real world
experience is costly, sample efficiency is an important indicator for
economically relevant applications of DRL. We investigate progress in sample
efficiency on Atari games and continuous control tasks by comparing the number
of samples that a variety of algorithms need to reach a given performance level
according to training curves in the corresponding publications. We find
exponential progress in sample efficiency with estimated doubling times of
around 10 to 18 months on Atari, 5 to 24 months on state-based continuous
control and of around 4 to 9 months on pixel-based continuous control depending
on the specific task and performance level.
- Abstract(参考訳): サンプル環境遷移は、深層強化学習(drl)アルゴリズムへの重要な入力である。
現在のDRLベンチマークでは、DRLの進歩が必ずしも改良されたサンプル効率に対応しないような、安価で容易に大量のサンプルを生成できることが多い。
実世界のプロセスのシミュレーションは、しばしば違法に困難であり、実世界の体験の収集にはコストがかかるため、サンプル効率はDRLの経済的応用にとって重要な指標である。
atariゲームおよび連続制御タスクにおけるサンプル効率の進歩を,様々なアルゴリズムが所定のパフォーマンスレベルに達するために必要なサンプル数を,対応する出版物のトレーニング曲線に従って比較して検討する。
アタリでは10~18ヶ月、状態ベースの連続制御では5~24ヶ月、特定のタスクとパフォーマンスレベルに応じてピクセルベースの連続制御では4~9ヶ月の推定倍率でサンプル効率が指数関数的に向上しています。
関連論文リスト
- RecFlow: An Industrial Full Flow Recommendation Dataset [66.06445386541122]
産業レコメンデーションシステムは、商品をユーザに届ける際の効率性と効率のバランスをとるために、多段階パイプラインに依存している。
オフラインRSベンチマークと実際のオンライン環境とのギャップを埋めるために設計された産業用フルフローレコメンデーションデータセットであるRecFlowを紹介します。
我々のデータセットは、約9万項目にわたる42Kユーザからの38万のインタラクションで構成され、37日間にわたる9.3Mオンラインリクエストから収集された1.9Bステージサンプルと6ステージにまたがる。
論文 参考訳(メタデータ) (2024-10-28T09:36:03Z) - MAD-TD: Model-Augmented Data stabilizes High Update Ratio RL [20.22674077197914]
最近の研究は、新しいサンプルごとに多数の勾配ステップを持つニューラルネットワークの更新について検討している。
高い更新とデータの比率は、トレーニングプロセスに不安定をもたらす。
時間差分学習のためのモデル拡張データ(MAD-TD)は,少数の生成データを用いて高UTDトレーニングを安定化する。
論文 参考訳(メタデータ) (2024-10-11T15:13:17Z) - SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning [11.304750795377657]
確率的図形モデル(PGM)を用いた人間の直観を符号化するフレームワークShireを提案する。
ShiREは、評価対象環境の25~78%のサンプル効率を、無視可能なオーバーヘッドコストで達成します。
論文 参考訳(メタデータ) (2024-09-16T04:46:22Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Data Sampling Affects the Complexity of Online SGD over Dependent Data [54.92366535993012]
本研究では,データサンプリング方式の違いが,高依存データに対するオンライン勾配勾配勾配の複雑さにどのように影響するかを示す。
データサンプルのサブサンプリングさえも、高度に依存したデータに対するオンラインSGDの収束を加速することができる。
論文 参考訳(メタデータ) (2022-03-31T07:48:30Z) - One Backward from Ten Forward, Subsampling for Large-Scale Deep Learning [35.0157090322113]
大規模機械学習システムは、しばしばプロダクション環境からの膨大なデータで継続的に訓練される。
ストリーミングデータの量は、リアルタイムのトレーニングサブシステムにとって重要な課題であり、アドホックサンプリングが標準のプラクティスである。
我々は,これらの前方パスからインスタンス毎の情報量を一定に記録することを提案する。
追加情報は、前方および後方のパスに参加するデータインスタンスの選択を測定可能に改善します。
論文 参考訳(メタデータ) (2021-04-27T11:29:02Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。