論文の概要: Action Noise in Off-Policy Deep Reinforcement Learning: Impact on
Exploration and Performance
- arxiv url: http://arxiv.org/abs/2206.03787v1
- Date: Wed, 8 Jun 2022 10:06:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 13:22:47.550568
- Title: Action Noise in Off-Policy Deep Reinforcement Learning: Impact on
Exploration and Performance
- Title(参考訳): オフポリティディープ強化学習におけるアクションノイズ:探索と性能への影響
- Authors: Jakob Hollenstein, Sayantan Auddy, Matteo Saveriano, Erwan Renaudo,
Justus Piater
- Abstract要約: 学習方針がノイズタイプ、スケール、時間の経過とともにスケール要因の低減にどのように影響するかを分析する。
我々は、最も顕著な2種類のアクションノイズ(ガウスノイズとオルンシュタイン・ウレンベックノイズ)を考える。
- 参考スコア(独自算出の注目度): 5.573543601558405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many deep reinforcement learning algorithms rely on simple forms of
exploration, such as the additive action-noise often used in continuous control
domains. Typically, the scaling factor of this action noise is chosen as a
hyper-parameter and kept constant during training. In this paper, we analyze
how the learned policy is impacted by the noise type, scale, and reducing of
the scaling factor over time. We consider the two most prominent types of
action-noise: Gaussian and Ornstein-Uhlenbeck noise, and perform a vast
experimental campaign by systematically varying the noise type and scale
parameter, and by measuring variables of interest like the expected return of
the policy and the state space coverage during exploration. For the latter, we
propose a novel state-space coverage measure
$\operatorname{X}_{\mathcal{U}\text{rel}}$ that is more robust to boundary
artifacts than previously proposed measures. Larger noise scales generally
increase state space coverage. However, we found that increasing the space
coverage using a larger noise scale is often not beneficial. On the contrary,
reducing the noise-scale over the training process reduces the variance and
generally improves the learning performance. We conclude that the best
noise-type and scale are environment dependent, and based on our observations,
derive heuristic rules for guiding the choice of the action noise as a starting
point for further optimization.
- Abstract(参考訳): 多くの深層強化学習アルゴリズムは、連続制御領域でよく使われる付加的アクションノイズのような単純な探索形式に依存している。
通常、この動作ノイズのスケーリング係数はハイパーパラメータとして選択され、トレーニング中に一定に保たれる。
本稿では,学習方針が騒音の種類,規模,時間の経過とともにスケール要因の低減にどのように影響するかを分析する。
ガウスノイズとオルンシュタイン・ウレンベックノイズの2つの最も顕著なタイプの動作雑音を考察し,ノイズタイプとスケールパラメータを体系的に変化させ,探索中の方針の回帰や状態空間のカバレッジといった興味のある変数を測定することによって,膨大な実験キャンペーンを行う。
後者では,従来提案されていた測度よりも境界アーティファクトに対して堅牢な新しい状態空間カバレッジ尺度 $\operatorname{X}_{\mathcal{U}\text{rel}}$を提案する。
より大きなノイズスケールは一般に状態空間を拡大する。
しかし,大きな騒音スケールで空間範囲を増加させることは,しばしば有益ではないことがわかった。
逆に、学習過程におけるノイズスケールの低減は、ばらつきを低減し、学習性能を全般的に向上させる。
我々は,最良の雑音タイプとスケールは環境依存であり,我々の観測に基づいて,さらなる最適化のための出発点として行動騒音の選択を導くためのヒューリスティックなルールを導出する。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding the Effect of Noise in LLM Training Data with Algorithmic
Chains of Thought [0.0]
思考の連鎖におけるノイズが,高度に制御された環境下でのタスクパフォーマンスに与える影響について検討する。
本研究では,CoTトレース処理後に適用される局所的な雑音と,トレース処理時にエラーを伝播する大域的なノイズであるテクトダイナミックノイズの2種類を定義した。
微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。
論文 参考訳(メタデータ) (2024-02-06T13:59:56Z) - Universal Noise Annotation: Unveiling the Impact of Noisy annotation on
Object Detection [36.318411642128446]
ユニバーサルノイズについて提案する。
(UNA)は、物体検出時に発生するあらゆる種類のノイズを包含するより実用的な設定である。
本研究では,従来の検出アルゴリズムの開発方向を解析し,検出モデル学習手法の堅牢性に影響を与える要因について検討した。
データセットにUNAを注入するためのコードをオープンソースで公開し、トレーニングログとウェイトもすべて共有しています。
論文 参考訳(メタデータ) (2023-12-21T13:12:37Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Label Noise: Correcting the Forward-Correction [0.0]
ラベルノイズのあるデータセット上でニューラルネットワーク分類器を訓練することは、ノイズのあるラベルに過度に適合するリスクをもたらす。
ラベルノイズによる過度適合に対処する手法を提案する。
本研究は, オーバーフィッティングを緩和するために, トレーニング損失に低い限界を課すことを提案する。
論文 参考訳(メタデータ) (2023-07-24T19:41:19Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - Combating Noise: Semi-supervised Learning by Region Uncertainty
Quantification [55.23467274564417]
現在の手法は、擬似ラベルによって生成されるノイズの多い領域によって容易に妨げられる。
領域の不確実性を定量化して雑音耐性半教師付き学習を提案する。
PASCAL VOCとMS COCOの併用実験により,本手法の異常な性能を実証した。
論文 参考訳(メタデータ) (2021-11-01T13:23:42Z) - On Dynamic Noise Influence in Differentially Private Learning [102.6791870228147]
Private Gradient Descent (PGD)は一般的に使用されるプライベート学習フレームワークであり、差分プロトコルに基づいてノイズを発生する。
最近の研究では、emphdynamic privacy schedulesは最終イテレーションで改善できるが、そのようなスケジュールの有効性の理論は限られている。
本稿では,これらの重要な質問に答えるために,動的プライバシスケジュールにおけるノイズの影響を総合的に分析する。
論文 参考訳(メタデータ) (2021-01-19T02:04:00Z) - Disturbances in Influence of a Shepherding Agent is More Impactful than
Sensorial Noise During Swarm Guidance [0.2624902795082451]
羊飼いに対する騒音の影響はよく研究されている問題ではない。
羊の生息地に関する羊飼いの知覚情報のノイズを評価する。
第2に、羊飼いが羊の運動中に発生する障害力によって羊に影響を及ぼす能力の騒音を評価する。
論文 参考訳(メタデータ) (2020-08-28T15:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。