論文の概要: Action Noise in Off-Policy Deep Reinforcement Learning: Impact on
Exploration and Performance
- arxiv url: http://arxiv.org/abs/2206.03787v3
- Date: Mon, 5 Jun 2023 16:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 05:14:44.771714
- Title: Action Noise in Off-Policy Deep Reinforcement Learning: Impact on
Exploration and Performance
- Title(参考訳): オフポリティディープ強化学習におけるアクションノイズ:探索と性能への影響
- Authors: Jakob Hollenstein, Sayantan Auddy, Matteo Saveriano, Erwan Renaudo,
Justus Piater
- Abstract要約: 我々は,学習方針が騒音タイプ,騒音スケール,影響スケーリング要因の低減スケジュールにどのように影響するかを分析する。
我々は、Ornstein-Uhlenbeckノイズという、最も顕著な2種類のアクションノイズについて検討し、膨大な実験運動を行う。
本研究は, 騒音の種類と規模が環境依存であることを示すとともに, 行動雑音の選択を導くためのルールを導出する。
- 参考スコア(独自算出の注目度): 5.573543601558405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many Deep Reinforcement Learning (D-RL) algorithms rely on simple forms of
exploration such as the additive action noise often used in continuous control
domains. Typically, the scaling factor of this action noise is chosen as a
hyper-parameter and is kept constant during training. In this paper, we focus
on action noise in off-policy deep reinforcement learning for continuous
control. We analyze how the learned policy is impacted by the noise type, noise
scale, and impact scaling factor reduction schedule. We consider the two most
prominent types of action noise, Gaussian and Ornstein-Uhlenbeck noise, and
perform a vast experimental campaign by systematically varying the noise type
and scale parameter, and by measuring variables of interest like the expected
return of the policy and the state-space coverage during exploration. For the
latter, we propose a novel state-space coverage measure
$\operatorname{X}_{\mathcal{U}\text{rel}}$ that is more robust to estimation
artifacts caused by points close to the state-space boundary than
previously-proposed measures. Larger noise scales generally increase
state-space coverage. However, we found that increasing the space coverage
using a larger noise scale is often not beneficial. On the contrary, reducing
the noise scale over the training process reduces the variance and generally
improves the learning performance. We conclude that the best noise type and
scale are environment dependent, and based on our observations derive heuristic
rules for guiding the choice of the action noise as a starting point for
further optimization.
- Abstract(参考訳): 多くのDeep Reinforcement Learning (D-RL)アルゴリズムは、連続制御ドメインでよく使われる付加的なアクションノイズのような単純な探索形式に依存している。
通常、この動作ノイズのスケーリング係数はハイパーパラメータとして選択され、トレーニング中に一定に保たれる。
本稿では,連続制御のためのオフポリシー深層強化学習における動作ノイズに着目した。
我々は,学習方針が騒音タイプ,騒音スケール,影響スケーリング要因低減スケジュールにどのように影響するかを分析する。
ガウスノイズとオルンシュタイン・ウレンベックノイズの2つの最も顕著なタイプの動作雑音を考察し,ノイズタイプとスケールパラメータを体系的に変化させ,探索中に期待される方針の回帰や状態空間のカバレッジといった興味のある変数を測定することによって,膨大な実験キャンペーンを行う。
後者では、前述した測度よりも、状態空間境界に近い点によって生じるアーティファクトを推定するために、より堅牢な新しい状態空間カバレッジ尺度 $\operatorname{X}_{\mathcal{U}\text{rel}}$を提案する。
大きなノイズスケールは一般に状態空間のカバレッジを増加させる。
しかし,大きな騒音スケールで空間範囲を増加させることは,しばしば有益ではないことがわかった。
一方、学習過程におけるノイズスケールの低減は、ばらつきを低減し、学習性能を全般的に向上させる。
提案手法では, 最適騒音タイプとスケールは環境依存であり, 以上の最適化のための出発点として行動騒音の選択を導くためのヒューリスティックルールを導出する。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding the Effect of Noise in LLM Training Data with Algorithmic
Chains of Thought [0.0]
思考の連鎖におけるノイズが,高度に制御された環境下でのタスクパフォーマンスに与える影響について検討する。
本研究では,CoTトレース処理後に適用される局所的な雑音と,トレース処理時にエラーを伝播する大域的なノイズであるテクトダイナミックノイズの2種類を定義した。
微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。
論文 参考訳(メタデータ) (2024-02-06T13:59:56Z) - Universal Noise Annotation: Unveiling the Impact of Noisy annotation on
Object Detection [36.318411642128446]
ユニバーサルノイズについて提案する。
(UNA)は、物体検出時に発生するあらゆる種類のノイズを包含するより実用的な設定である。
本研究では,従来の検出アルゴリズムの開発方向を解析し,検出モデル学習手法の堅牢性に影響を与える要因について検討した。
データセットにUNAを注入するためのコードをオープンソースで公開し、トレーニングログとウェイトもすべて共有しています。
論文 参考訳(メタデータ) (2023-12-21T13:12:37Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Label Noise: Correcting the Forward-Correction [0.0]
ラベルノイズのあるデータセット上でニューラルネットワーク分類器を訓練することは、ノイズのあるラベルに過度に適合するリスクをもたらす。
ラベルノイズによる過度適合に対処する手法を提案する。
本研究は, オーバーフィッティングを緩和するために, トレーニング損失に低い限界を課すことを提案する。
論文 参考訳(メタデータ) (2023-07-24T19:41:19Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - Combating Noise: Semi-supervised Learning by Region Uncertainty
Quantification [55.23467274564417]
現在の手法は、擬似ラベルによって生成されるノイズの多い領域によって容易に妨げられる。
領域の不確実性を定量化して雑音耐性半教師付き学習を提案する。
PASCAL VOCとMS COCOの併用実験により,本手法の異常な性能を実証した。
論文 参考訳(メタデータ) (2021-11-01T13:23:42Z) - On Dynamic Noise Influence in Differentially Private Learning [102.6791870228147]
Private Gradient Descent (PGD)は一般的に使用されるプライベート学習フレームワークであり、差分プロトコルに基づいてノイズを発生する。
最近の研究では、emphdynamic privacy schedulesは最終イテレーションで改善できるが、そのようなスケジュールの有効性の理論は限られている。
本稿では,これらの重要な質問に答えるために,動的プライバシスケジュールにおけるノイズの影響を総合的に分析する。
論文 参考訳(メタデータ) (2021-01-19T02:04:00Z) - Disturbances in Influence of a Shepherding Agent is More Impactful than
Sensorial Noise During Swarm Guidance [0.2624902795082451]
羊飼いに対する騒音の影響はよく研究されている問題ではない。
羊の生息地に関する羊飼いの知覚情報のノイズを評価する。
第2に、羊飼いが羊の運動中に発生する障害力によって羊に影響を及ぼす能力の騒音を評価する。
論文 参考訳(メタデータ) (2020-08-28T15:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。