論文の概要: Importance of using appropriate baselines for evaluation of
data-efficiency in deep reinforcement learning for Atari
- arxiv url: http://arxiv.org/abs/2003.10181v2
- Date: Tue, 31 Mar 2020 17:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 23:31:27.926325
- Title: Importance of using appropriate baselines for evaluation of
data-efficiency in deep reinforcement learning for Atari
- Title(参考訳): atariの深部強化学習におけるデータ効率評価における適切なベースラインの利用の重要性
- Authors: Kacper Kielak
- Abstract要約: 実際の効率の改善は、アルゴリズムが各データサンプルのさらなるトレーニング更新を可能にすることで達成された。
本論文では, 改良DQNに類似したエージェントを, 深部強化学習のサンプル効率向上を目的とした今後の研究のベースラインとして用いるべきであると論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has seen great advancements in the past few
years. Nevertheless, the consensus among the RL community is that currently
used methods, despite all their benefits, suffer from extreme data
inefficiency, especially in the rich visual domains like Atari. To circumvent
this problem, novel approaches were introduced that often claim to be much more
efficient than popular variations of the state-of-the-art DQN algorithm. In
this paper, however, we demonstrate that the newly proposed techniques simply
used unfair baselines in their experiments. Namely, we show that the actual
improvement in the efficiency came from allowing the algorithm for more
training updates for each data sample, and not from employing the new methods.
By allowing DQN to execute network updates more frequently we manage to reach
similar or better results than the recently proposed advancement, often at a
fraction of complexity and computational costs. Furthermore, based on the
outcomes of the study, we argue that the agent similar to the modified DQN that
is presented in this paper should be used as a baseline for any future work
aimed at improving sample efficiency of deep reinforcement learning.
- Abstract(参考訳): 強化学習(RL)はここ数年で大きな進歩を遂げている。
しかしながら、RLコミュニティのコンセンサスは、現在使われているメソッドは、すべての利点にもかかわらず、特にAtariのようなリッチなビジュアルドメインにおいて、極端なデータ非効率に悩まされているということである。
この問題を回避するために、しばしば最先端DQNアルゴリズムの一般的なバリエーションよりも効率的であると主張する新しいアプローチが導入された。
しかし,本研究では,新たに提案した手法が,実験において不公平なベースラインを単純に用いたことを実証する。
すなわち、実際の効率の改善は、新しい手法を採用することではなく、各データサンプルのトレーニング更新をアルゴリズムで行うことによるものであることを示す。
dqnがネットワーク更新をより頻繁に実行するようにすることで、最近提案された進歩よりも、複雑さと計算コストの少なさで、同様の、あるいはより良い結果を得ることができます。
さらに,本研究の結果から,本論文で提示した修正dqnと類似したエージェントを,深層強化学習のサンプル効率向上を目的とした今後の研究のベースラインとして用いるべきであると考察した。
関連論文リスト
- Search-Based Adversarial Estimates for Improving Sample Efficiency in Off-Policy Reinforcement Learning [0.0]
本稿では,この問題を緩和するための新しい,シンプルかつ効率的なアプローチとして,Adversarial Estimatesを提案する。
我々のアプローチは、学習を促進するために、小さな人間の軌道の集合からの潜在類似性探索を活用する。
本研究の結果から,適応推定を用いた学習アルゴリズムは,元のバージョンよりも高速に収束することがわかった。
論文 参考訳(メタデータ) (2025-02-03T17:41:02Z) - Adaptive Data Exploitation in Deep Reinforcement Learning [50.53705050673944]
深層強化学習(RL)における**データ効率**と**一般化**を強化する強力なフレームワークであるADEPTを紹介する。
具体的には、ADEPTはマルチアーム・バンディット(MAB)アルゴリズムを用いて、異なる学習段階にわたるサンプルデータの使用を適応的に管理する。
Procgen、MiniGrid、PyBulletなどのベンチマークでADEPTをテストする。
論文 参考訳(メタデータ) (2025-01-22T04:01:17Z) - Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - Revisiting Data Augmentation in Deep Reinforcement Learning [3.660182910533372]
画像に基づく深部強化学習(DRL)において、様々なデータ拡張技術が提案されている。
既存の手法を分析し、それらをよりよく理解し、どのように接続されているかを明らかにする。
この分析は、データ拡張をより原則的に活用する方法を推奨する。
論文 参考訳(メタデータ) (2024-02-19T14:42:10Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - An Expert's Guide to Training Physics-informed Neural Networks [5.198985210238479]
物理インフォームドニューラルネットワーク(PINN)はディープラーニングフレームワークとして普及している。
PINNは観測データと偏微分方程式(PDE)の制約をシームレスに合成することができる。
PINNのトレーニング効率と全体的な精度を大幅に向上させる一連のベストプラクティスを提案する。
論文 参考訳(メタデータ) (2023-08-16T16:19:25Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Statistically Efficient Advantage Learning for Offline Reinforcement
Learning in Infinite Horizons [16.635744815056906]
モバイルヘルスアプリケーションなどのオンラインデータ収集を伴わないオフライン領域での強化学習手法を検討する。
提案手法は、既存の最先端RLアルゴリズムによって計算された最適Q推定器を入力とし、初期Q推定器に基づいて導出されたポリシーよりも高速に収束することが保証された新しいポリシーを出力する。
論文 参考訳(メタデータ) (2022-02-26T15:29:46Z) - Variance-Optimal Augmentation Logging for Counterfactual Evaluation in
Contextual Bandits [25.153656462604268]
オフラインのA/Bテストと反ファクトラーニングの手法は、検索システムやレコメンデーションシステムに急速に採用されている。
これらの手法で一般的に使用される対物推定器は、ログポリシが評価対象のポリシーと大きく異なる場合、大きなバイアスと大きなばらつきを持つ可能性がある。
本稿では,下流評価や学習問題の分散を最小限に抑えるロギングポリシーを構築するための,MVAL(Minimum Variance Augmentation Logging)を提案する。
論文 参考訳(メタデータ) (2022-02-03T17:37:11Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。