論文の概要: Exploring the Training Robustness of Distributional Reinforcement
Learning against Noisy State Observations
- arxiv url: http://arxiv.org/abs/2109.08776v5
- Date: Wed, 21 Jun 2023 23:34:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 18:31:54.101476
- Title: Exploring the Training Robustness of Distributional Reinforcement
Learning against Noisy State Observations
- Title(参考訳): ノイズ状態観測に対する分散強化学習の学習ロバスト性の検討
- Authors: Ke Sun, Yingnan Zhao, Shangling Jui, Linglong Kong
- Abstract要約: エージェントが観察する状態の観察は、測定誤差や敵のノイズを含んでおり、エージェントが最適な行動を取るように誤解したり、訓練中に崩壊することもある。
本稿では,本研究の成果である分散強化学習(RL)のトレーニングロバスト性について検討する。
- 参考スコア(独自算出の注目度): 7.776010676090131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real scenarios, state observations that an agent observes may contain
measurement errors or adversarial noises, misleading the agent to take
suboptimal actions or even collapse while training. In this paper, we study the
training robustness of distributional Reinforcement Learning (RL), a class of
state-of-the-art methods that estimate the whole distribution, as opposed to
only the expectation, of the total return. Firstly, we validate the contraction
of distributional Bellman operators in the State-Noisy Markov Decision Process
(SN-MDP), a typical tabular case that incorporates both random and adversarial
state observation noises. In the noisy setting with function approximation, we
then analyze the vulnerability of least squared loss in expectation-based RL
with either linear or nonlinear function approximation. By contrast, we
theoretically characterize the bounded gradient norm of distributional RL loss
based on the categorical parameterization equipped with the KL divergence. The
resulting stable gradients while the optimization in distributional RL accounts
for its better training robustness against state observation noises. Finally,
extensive experiments on the suite of environments verified that distributional
RL is less vulnerable against both random and adversarial noisy state
observations compared with its expectation-based counterpart.
- Abstract(参考訳): 実際のシナリオでは、エージェントが観察する状態観察には、測定エラーや逆向きのノイズが含まれ、エージェントが最適でない行動をとるように誤解したり、トレーニング中に崩壊することがある。
本稿では,本研究の成果である分散強化学習(RL)のトレーニングロバスト性について検討する。
まず,無作為な状態観測ノイズと対向的な状態観測ノイズを含む典型的な表形式であるSN-MDP(State-Noisy Markov Decision Process)における分布ベルマン作用素の収縮を検証する。
関数近似を用いた雑音条件では、線形あるいは非線形の関数近似を用いて予測に基づくRLの最小二乗損失の脆弱性を解析する。
対照的に,kl 発散を考慮した分類的パラメータ化に基づく分布 rl 損失の有界勾配ノルムを理論的に特徴付ける。
分布RLの最適化中に生じる安定した勾配は、状態観測ノイズに対するより優れたトレーニングロバスト性の原因となる。
最後に、一連の環境における広範な実験により、分布RLは予測に基づく観測に比べてランダムおよび逆ノイズ状態の観測に対して脆弱でないことが確認された。
関連論文リスト
- Assessing the Impact of Distribution Shift on Reinforcement Learning
Performance [0.0]
強化学習(RL)は独自の課題に直面する。
点推定と訓練中の最適方針への収束を成功させるプロットの比較は、実験装置への過度な適合や依存を阻害する可能性がある。
本稿では,分散シフト下でのRLアルゴリズムのロバスト性を評価するための評価手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T23:50:55Z) - May the Noise be with you: Adversarial Training without Adversarial
Examples [3.4673556247932225]
我々は、敵の訓練を受けずに敵の訓練を受けたモデルを得ることができるかという疑問を調査する。
提案手法は,訓練時にNNモデルの層にガウス雑音を埋め込むことによって固有性を取り入れる。
我々の研究は、全く異なるアプローチで敵の訓練を受けたネットワークに貢献し、敵の訓練と経験的に類似した堅牢性を持つ。
論文 参考訳(メタデータ) (2023-12-12T08:22:28Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Adversarial robustness of amortized Bayesian inference [3.308743964406687]
償却ベイズ推論は、当初シミュレーションデータ上の推論ネットワークのトレーニングに計算コストを投資することを目的としている。
観測対象のほとんど認識不能な摂動は、予測された後部および非現実的な後部予測標本に劇的な変化をもたらす可能性があることを示す。
本研究では,条件密度推定器のフィッシャー情報をペナライズした計算効率の高い正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-24T10:18:45Z) - Stochastic optimal well control in subsurface reservoirs using
reinforcement learning [0.0]
本稿では,パラメータの不確実性分布の最適制御を行うためのモデルフリー強化学習フレームワークのケーススタディを提案する。
原理的には、RLアルゴリズムは数値報酬信号の最大化のために最適な行動ポリシーを学習することができる。
提案手法は,2つの水面流動試験ケースに対して,2つの最先端RLアルゴリズム,PPO,A2Cを用いて数値計算を行った。
論文 参考訳(メタデータ) (2022-07-07T17:34:23Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation [12.415463205960156]
モデルフリー深部強化学習(RL)アルゴリズムでは、ノイズ値推定を用いて政策評価と最適化を監督し、サンプル効率を損なう。
RLで発生するノイズ管理における不確実性の原因を系統的に分析する。
本稿では,2つの相補的不確実性推定手法がQ値と環境の両方を考慮し,ノイズ管理の負の影響を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-01-05T15:46:06Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Evaluating probabilistic classifiers: Reliability diagrams and score
decompositions revisited [68.8204255655161]
確率的に統計的に一貫性があり、最適に結合し、再現可能な信頼性図を自動生成するCORP手法を導入する。
コーパスは非パラメトリックアイソトニック回帰に基づいており、プール・アジャセント・ヴァイオレータ(PAV)アルゴリズムによって実装されている。
論文 参考訳(メタデータ) (2020-08-07T08:22:26Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。