論文の概要: Importance of using appropriate baselines for evaluation of
data-efficiency in deep reinforcement learning for Atari
- arxiv url: http://arxiv.org/abs/2003.10181v2
- Date: Tue, 31 Mar 2020 17:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 23:31:27.926325
- Title: Importance of using appropriate baselines for evaluation of
data-efficiency in deep reinforcement learning for Atari
- Title(参考訳): atariの深部強化学習におけるデータ効率評価における適切なベースラインの利用の重要性
- Authors: Kacper Kielak
- Abstract要約: 実際の効率の改善は、アルゴリズムが各データサンプルのさらなるトレーニング更新を可能にすることで達成された。
本論文では, 改良DQNに類似したエージェントを, 深部強化学習のサンプル効率向上を目的とした今後の研究のベースラインとして用いるべきであると論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has seen great advancements in the past few
years. Nevertheless, the consensus among the RL community is that currently
used methods, despite all their benefits, suffer from extreme data
inefficiency, especially in the rich visual domains like Atari. To circumvent
this problem, novel approaches were introduced that often claim to be much more
efficient than popular variations of the state-of-the-art DQN algorithm. In
this paper, however, we demonstrate that the newly proposed techniques simply
used unfair baselines in their experiments. Namely, we show that the actual
improvement in the efficiency came from allowing the algorithm for more
training updates for each data sample, and not from employing the new methods.
By allowing DQN to execute network updates more frequently we manage to reach
similar or better results than the recently proposed advancement, often at a
fraction of complexity and computational costs. Furthermore, based on the
outcomes of the study, we argue that the agent similar to the modified DQN that
is presented in this paper should be used as a baseline for any future work
aimed at improving sample efficiency of deep reinforcement learning.
- Abstract(参考訳): 強化学習(RL)はここ数年で大きな進歩を遂げている。
しかしながら、RLコミュニティのコンセンサスは、現在使われているメソッドは、すべての利点にもかかわらず、特にAtariのようなリッチなビジュアルドメインにおいて、極端なデータ非効率に悩まされているということである。
この問題を回避するために、しばしば最先端DQNアルゴリズムの一般的なバリエーションよりも効率的であると主張する新しいアプローチが導入された。
しかし,本研究では,新たに提案した手法が,実験において不公平なベースラインを単純に用いたことを実証する。
すなわち、実際の効率の改善は、新しい手法を採用することではなく、各データサンプルのトレーニング更新をアルゴリズムで行うことによるものであることを示す。
dqnがネットワーク更新をより頻繁に実行するようにすることで、最近提案された進歩よりも、複雑さと計算コストの少なさで、同様の、あるいはより良い結果を得ることができます。
さらに,本研究の結果から,本論文で提示した修正dqnと類似したエージェントを,深層強化学習のサンプル効率向上を目的とした今後の研究のベースラインとして用いるべきであると考察した。
関連論文リスト
- Revisiting Data Augmentation in Deep Reinforcement Learning [3.660182910533372]
画像に基づく深部強化学習(DRL)において、様々なデータ拡張技術が提案されている。
既存の手法を分析し、それらをよりよく理解し、どのように接続されているかを明らかにする。
この分析は、データ拡張をより原則的に活用する方法を推奨する。
論文 参考訳(メタデータ) (2024-02-19T14:42:10Z) - Learning Diverse Policies with Soft Self-Generated Guidance [2.9602904918952695]
非ゼロ報酬がほとんど得られないため、スパースと偽りの報酬による強化学習は困難である。
本稿では,より高速で効率的なオンラインRLを実現するために,多種多様な過去の軌跡を利用する手法を開発した。
論文 参考訳(メタデータ) (2024-02-07T02:53:50Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - An Expert's Guide to Training Physics-informed Neural Networks [5.198985210238479]
物理インフォームドニューラルネットワーク(PINN)はディープラーニングフレームワークとして普及している。
PINNは観測データと偏微分方程式(PDE)の制約をシームレスに合成することができる。
PINNのトレーニング効率と全体的な精度を大幅に向上させる一連のベストプラクティスを提案する。
論文 参考訳(メタデータ) (2023-08-16T16:19:25Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Statistically Efficient Advantage Learning for Offline Reinforcement
Learning in Infinite Horizons [16.635744815056906]
モバイルヘルスアプリケーションなどのオンラインデータ収集を伴わないオフライン領域での強化学習手法を検討する。
提案手法は、既存の最先端RLアルゴリズムによって計算された最適Q推定器を入力とし、初期Q推定器に基づいて導出されたポリシーよりも高速に収束することが保証された新しいポリシーを出力する。
論文 参考訳(メタデータ) (2022-02-26T15:29:46Z) - Variance-Optimal Augmentation Logging for Counterfactual Evaluation in
Contextual Bandits [25.153656462604268]
オフラインのA/Bテストと反ファクトラーニングの手法は、検索システムやレコメンデーションシステムに急速に採用されている。
これらの手法で一般的に使用される対物推定器は、ログポリシが評価対象のポリシーと大きく異なる場合、大きなバイアスと大きなばらつきを持つ可能性がある。
本稿では,下流評価や学習問題の分散を最小限に抑えるロギングポリシーを構築するための,MVAL(Minimum Variance Augmentation Logging)を提案する。
論文 参考訳(メタデータ) (2022-02-03T17:37:11Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。