論文の概要: Some approaches used to overcome overestimation in Deep Reinforcement
Learning algorithms
- arxiv url: http://arxiv.org/abs/2006.14167v2
- Date: Thu, 10 Nov 2022 17:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 03:04:57.574932
- Title: Some approaches used to overcome overestimation in Deep Reinforcement
Learning algorithms
- Title(参考訳): 深層強化学習アルゴリズムにおける過大評価を克服するいくつかの手法
- Authors: Rafael Stekolshchik
- Abstract要約: 統計的ノイズに関連するいくつかの現象は、深部強化学習(RL)アルゴリズムの枠組みの下で、様々な著者によって研究されている。
ディープQネットワーク(DQN)、ダブルDQN、ディープ決定性ポリシー勾配(DDPG)、ツイン遅延DDPG(TD3)、ヒルクライミングアルゴリズムについて検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Some phenomena related to statistical noise which have been investigated by
various authors under the framework of deep reinforcement learning (RL)
algorithms are discussed. The following algorithms are examined: the deep
Q-network (DQN), double DQN, deep deterministic policy gradient (DDPG),
twin-delayed DDPG (TD3), and hill climbing algorithm. First, we consider
overestimation, which is a harmful property resulting from noise. Then we deal
with noise used for exploration, this is the useful noise. We discuss setting
the noise parameter in the TD3 for typical PyBullet environments associated
with articulate bodies such as HopperBulletEnv and Walker2DBulletEnv. In the
appendix, in relation to the hill climbing algorithm, another example related
to noise is considered - an example of adaptive noise.
- Abstract(参考訳): 深部強化学習(RL)アルゴリズムの枠組みにより,様々な研究者によって研究されている統計ノイズに関連する諸現象について考察した。
ディープQネットワーク(DQN)、ダブルDQN、ディープ決定性ポリシー勾配(DDPG)、ツイン遅延DDPG(TD3)、ヒルクライミングアルゴリズムについて検討した。
まず,騒音による有害な特性である過大評価について考察する。
次に、探索に使用するノイズに対処します。これは有用なノイズです。
本稿では, HopperBulletEnv や Walker2DBulletEnv などの音素に付随する典型的な PyBullet 環境に対するTD3 の雑音パラメータの設定について論じる。
付録では、ヒルクライミングアルゴリズムに関連して、ノイズに関する別の例(適応雑音の例)が検討されている。
関連論文リスト
- SoftPatch: Unsupervised Anomaly Detection with Noisy Data [67.38948127630644]
本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。
本稿では,メモリベースの非教師付きAD手法であるSoftPatchを提案する。
既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
論文 参考訳(メタデータ) (2024-03-21T08:49:34Z) - Understanding the Effect of Noise in LLM Training Data with Algorithmic
Chains of Thought [0.0]
思考の連鎖におけるノイズが,高度に制御された環境下でのタスクパフォーマンスに与える影響について検討する。
本研究では,CoTトレース処理後に適用される局所的な雑音と,トレース処理時にエラーを伝播する大域的なノイズであるテクトダイナミックノイズの2種類を定義した。
微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。
論文 参考訳(メタデータ) (2024-02-06T13:59:56Z) - Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - Layering and subpool exploration for adaptive Variational Quantum
Eigensolvers: Reducing circuit depth, runtime, and susceptibility to noise [0.0]
適応変分量子固有解法 (ADAPT-VQEs) は強い相関系のシミュレーションにおいて有望な候補である。
近年の取り組みは、アンザッツ回路のコンパクト化、または層化に向けられている。
層状化は振幅減衰や減音に対する耐雑音性の向上につながることを示す。
論文 参考訳(メタデータ) (2023-08-22T18:00:02Z) - On the Theoretical Properties of Noise Correlation in Stochastic
Optimization [6.970991851511823]
PGDとアンチPGDに比較して,fPGDは探索能力を有することを示す。
これらの結果は、機械学習モデルにノイズを利用する新しい方法へとフィールドを開放する。
論文 参考訳(メタデータ) (2022-09-19T16:32:22Z) - Popular decision tree algorithms are provably noise tolerant [17.775217381568478]
我々は,古典的なID3,C4.5,CARTを含む不純物に基づく決定木学習アルゴリズムが,耐雑音性が高いことを証明した。
我々の研究は、これらの実践的な決定木アルゴリズムの実証的な成功を、しっかりとした理論的な足場に置きたいという、継続的な研究の行に繋がる。
論文 参考訳(メタデータ) (2022-06-17T17:15:57Z) - Action Noise in Off-Policy Deep Reinforcement Learning: Impact on
Exploration and Performance [5.573543601558405]
我々は,学習方針が騒音タイプ,騒音スケール,影響スケーリング要因の低減スケジュールにどのように影響するかを分析する。
我々は、Ornstein-Uhlenbeckノイズという、最も顕著な2種類のアクションノイズについて検討し、膨大な実験運動を行う。
本研究は, 騒音の種類と規模が環境依存であることを示すとともに, 行動雑音の選択を導くためのルールを導出する。
論文 参考訳(メタデータ) (2022-06-08T10:06:24Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - Contextual Linear Bandits under Noisy Features: Towards Bayesian Oracles [65.9694455739978]
特徴不確実性の下での文脈線形帯域問題について検討する。
本分析により, 最適仮説は, 雑音特性に応じて, 基礎となる実現可能性関数から著しく逸脱しうることが明らかとなった。
これは、古典的アプローチが非自明な後悔境界を保証できないことを意味する。
論文 参考訳(メタデータ) (2017-03-03T21:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。