論文の概要: Efficient Deep Reinforcement Learning Requires Regulating Overfitting
- arxiv url: http://arxiv.org/abs/2304.10466v1
- Date: Thu, 20 Apr 2023 17:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 12:17:08.826619
- Title: Efficient Deep Reinforcement Learning Requires Regulating Overfitting
- Title(参考訳): 効率のよい深層強化学習はオーバーフィッティングを規制する必要がある
- Authors: Qiyang Li, Aviral Kumar, Ilya Kostrikov, Sergey Levine
- Abstract要約: 本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
- 参考スコア(独自算出の注目度): 91.88004732618381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning algorithms that learn policies by trial-and-error
must learn from limited amounts of data collected by actively interacting with
the environment. While many prior works have shown that proper regularization
techniques are crucial for enabling data-efficient RL, a general understanding
of the bottlenecks in data-efficient RL has remained unclear. Consequently, it
has been difficult to devise a universal technique that works well across all
domains. In this paper, we attempt to understand the primary bottleneck in
sample-efficient deep RL by examining several potential hypotheses such as
non-stationarity, excessive action distribution shift, and overfitting. We
perform thorough empirical analysis on state-based DeepMind control suite (DMC)
tasks in a controlled and systematic way to show that high temporal-difference
(TD) error on the validation set of transitions is the main culprit that
severely affects the performance of deep RL algorithms, and prior methods that
lead to good performance do in fact, control the validation TD error to be low.
This observation gives us a robust principle for making deep RL efficient: we
can hill-climb on the validation TD error by utilizing any form of
regularization techniques from supervised learning. We show that a simple
online model selection method that targets the validation TD error is effective
across state-based DMC and Gym tasks.
- Abstract(参考訳): 試行錯誤によってポリシーを学習する深層強化学習アルゴリズムは、環境と積極的に相互作用することによって収集される限られた量のデータから学ぶ必要がある。
多くの先行研究で、データ効率のRLを実現するために適切な正規化技術が不可欠であることが示されているが、データ効率のRLにおけるボトルネックの一般的な理解はいまだ不明である。
したがって、すべての領域でうまく機能する普遍的なテクニックを考案することは困難である。
本稿では, 非定常性, 過度な作用分布シフト, 過度な適合性などの仮説を検証し, 試料効率の高い深部RLの一次ボトルネックの解明を試みる。
我々は、状態ベースのDeepMind制御スイート(DMC)タスクに対して、制御された体系的な方法で徹底的な実証分析を行い、トランジションの検証セットにおける高時間差(TD)エラーが、深いRLアルゴリズムの性能に重大な影響を及ぼす主要な原因であることを示す。
この観察により、深いRLを効率的にするためのロバストな原理が得られ、教師付き学習から任意の形式の正規化手法を利用することで、検証TD誤差をヒルクライミングすることができる。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - A Transferable and Automatic Tuning of Deep Reinforcement Learning for
Cost Effective Phishing Detection [21.481974148873807]
現実の課題の多くは、複数の補完的な学習モデルのアンサンブルを配置する必要がある。
Deep Reinforcement Learning (DRL) はコスト効率のよい代替手段であり、検出器は前者の出力に基づいて動的に選択される。
論文 参考訳(メタデータ) (2022-09-19T14:09:07Z) - OPAL: Occlusion Pattern Aware Loss for Unsupervised Light Field
Disparity Estimation [22.389903710616508]
教師なしの手法は精度は同等だが、教師付き手法よりもはるかに高い一般化能力と効率が得られる。
本稿では、損失計算のために光場固有の一般的な閉塞パターンを抽出し、符号化するOPALを提案する。
論文 参考訳(メタデータ) (2022-03-04T10:32:18Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Data-efficient Weakly-supervised Learning for On-line Object Detection
under Domain Shift in Robotics [24.878465999976594]
文献では、Deep Convolutional Neural Networks (DCNNs)に基づく多数のオブジェクト検出方法が提案されている。
これらの手法はロボティクスに重要な制限がある:オフラインデータのみに学習するとバイアスが発生し、新しいタスクへの適応を防ぐことができる。
本研究では,弱い教師付き学習がこれらの問題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2020-12-28T16:36:11Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。