論文の概要: Is High Variance Unavoidable in RL? A Case Study in Continuous Control
- arxiv url: http://arxiv.org/abs/2110.11222v1
- Date: Thu, 21 Oct 2021 15:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 16:04:31.262197
- Title: Is High Variance Unavoidable in RL? A Case Study in Continuous Control
- Title(参考訳): RLで高分散は避けられないか?
連続制御の事例研究
- Authors: Johan Bjorck, Carla P. Gomes, Kilian Q. Weinberger
- Abstract要約: 強化学習実験は、明らかに高いばらつきがある。
微妙な詳細は、測定結果に不均等に大きな影響を与える可能性がある。
早期分散の原因の一つが数値不安定性であることを示す。
- 参考スコア(独自算出の注目度): 42.960199987696306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) experiments have notoriously high variance, and
minor details can have disproportionately large effects on measured outcomes.
This is problematic for creating reproducible research and also serves as an
obstacle for real-world applications, where safety and predictability are
paramount. In this paper, we investigate causes for this perceived instability.
To allow for an in-depth analysis, we focus on a specifically popular setup
with high variance -- continuous control from pixels with an actor-critic
agent. In this setting, we demonstrate that variance mostly arises early in
training as a result of poor "outlier" runs, but that weight initialization and
initial exploration are not to blame. We show that one cause for early variance
is numerical instability which leads to saturating nonlinearities. We
investigate several fixes to this issue and find that one particular method is
surprisingly effective and simple -- normalizing penultimate features.
Addressing the learning instability allows for larger learning rates, and
significantly decreases the variance of outcomes. This demonstrates that the
perceived variance in RL is not necessarily inherent to the problem definition
and may be addressed through simple architectural modifications.
- Abstract(参考訳): 強化学習(rl)実験は高いばらつきがあり、小さな細部は測定結果に不釣り合いに大きな影響を与える可能性がある。
これは再現可能な研究を作成する上で問題であり、安全性と予測可能性が最重要である現実世界のアプリケーションにとって障害となる。
本稿では,この不安定感の原因について考察する。
詳細な分析を可能にするため,アクタ批判エージェントによる画素からの連続的な制御という,高い分散性を備えた,特に一般的な設定に着目する。
この設定では、低調な「異常」実行の結果、トレーニングの初期段階にばらつきがほとんど発生するが、重量初期化と初期探索が原因ではないことを実証する。
初期分散の原因の一つは、飽和非線形性をもたらす数値的不安定性である。
この問題に対するいくつかの修正を調査し、ある特定のメソッドが驚くほど効果的でシンプルであることを確認します。
学習不安定性に対処することで、学習率が向上し、結果のばらつきが大幅に減少する。
このことは、RLの知覚的分散が必ずしも問題定義に固有のものではなく、単純なアーキテクチャ修正によって対処できることを示している。
関連論文リスト
- Revisiting Essential and Nonessential Settings of Evidential Deep Learning [70.82728812001807]
Evidential Deep Learning (EDL) は不確実性推定の新しい手法である。
本報告では,EDLの簡易かつ効果的な拡張型であるRe-EDLを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:27:07Z) - Multiple Descents in Unsupervised Learning: The Role of Noise, Domain Shift and Anomalies [14.399035468023161]
教師なし学習における二重の子孫の存在について検討するが、これはほとんど注目されず、まだ完全には理解されていない領域である。
我々は、合成データと実データを用いて、様々なアプリケーションに対してモデルワイド、エポックワイド、サンプルワイドの二重降下を識別する。
論文 参考訳(メタデータ) (2024-06-17T16:24:23Z) - Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。
我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文 参考訳(メタデータ) (2024-03-09T19:56:40Z) - Variance of ML-based software fault predictors: are we really improving
fault prediction? [0.3222802562733786]
我々は、最先端の故障予測手法のばらつきを実験的に分析する。
我々は,クラス毎の精度測定値において最大10.10%のばらつきを観測した。
論文 参考訳(メタデータ) (2023-10-26T09:31:32Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Deconfounded Score Method: Scoring DAGs with Dense Unobserved
Confounding [101.35070661471124]
本研究では,観測データ分布に特徴的フットプリントが残っており,突発的・因果的影響を解消できることを示す。
汎用ソルバで実装し,高次元問題へのスケールアップが可能なスコアベース因果検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-28T11:07:59Z) - Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。
我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。
平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文 参考訳(メタデータ) (2020-10-22T12:45:55Z) - What causes the test error? Going beyond bias-variance via ANOVA [21.359033212191218]
現代の機械学習手法は、しばしば過度にパラメータ化され、細かいレベルでのデータへの適応を可能にする。
最近の研究は、なぜ過度なパラメータ化が一般化に役立つのかをより深く理解することを目的としている。
本研究では, 差分解析(ANOVA)を用いて, テスト誤差の分散を対称的に分解する手法を提案する。
論文 参考訳(メタデータ) (2020-10-11T05:21:13Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。