論文の概要: Exploring the Robustness of Distributional Reinforcement Learning
against Noisy State Observations
- arxiv url: http://arxiv.org/abs/2109.08776v1
- Date: Fri, 17 Sep 2021 22:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 13:27:58.881073
- Title: Exploring the Robustness of Distributional Reinforcement Learning
against Noisy State Observations
- Title(参考訳): ノイズ状態観測に対する分散強化学習のロバスト性を探る
- Authors: Ke Sun, Yi Liu, Yingnan Zhao, Hengshuai Yao, Shangling Jui, Linglong
Kong
- Abstract要約: 実際のシナリオでは、エージェントが観察する状態の観察は、測定エラーや敵の雑音を含む可能性がある。
本稿では,本研究の成果である分散強化学習(RL)のトレーニングロバスト性について検討する。
- 参考スコア(独自算出の注目度): 15.729503162334794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real scenarios, state observations that an agent observes may contain
measurement errors or adversarial noises, misleading the agent to take
suboptimal actions or even collapse while training. In this paper, we study the
training robustness of distributional Reinforcement Learning~(RL), a class of
state-of-the-art methods that estimate the whole distribution, as opposed to
only the expectation, of the total return. Firstly, we propose State-Noisy
Markov Decision Process~(SN-MDP) in the tabular case to incorporate both random
and adversarial state observation noises, in which the contraction of both
expectation-based and distributional Bellman operators is derived. Beyond
SN-MDP with the function approximation, we theoretically characterize the
bounded gradient norm of histogram-based distributional loss, accounting for
the better training robustness of distribution RL. We also provide stricter
convergence conditions of the Temporal-Difference~(TD) learning under more
flexible state noises, as well as the sensitivity analysis by the leverage of
influence function. Finally, extensive experiments on the suite of games show
that distributional RL enjoys better training robustness compared with its
expectation-based counterpart across various state observation noises.
- Abstract(参考訳): 実際のシナリオでは、エージェントが観察する状態観察には、測定エラーや逆向きのノイズが含まれ、エージェントが最適でない行動をとるように誤解したり、トレーニング中に崩壊することがある。
本稿では,分布強化学習(rl)のトレーニングロバスト性について検討する。本研究は,全回帰の期待値に対して,全体の分布を推定する最先端手法のクラスである。
まず, 有意なマルコフ決定過程~(sn-mdp) を提案し, 期待値と分布値の両方のベルマン作用素の縮小を導出するランダム状態観測ノイズと逆状態観測ノイズの両方を取り込む。
関数近似によるSN-MDPを超えて、ヒストグラムに基づく分布損失の有界勾配ノルムを理論的に特徴づけ、分布RLのより優れたトレーニングロバスト性を考慮した。
また,よりフレキシブルな状態雑音下での時間差~(td)学習のより厳密な収束条件と,影響関数の活用による感度解析を提供する。
最後に、ゲームスイートにおける広範な実験により、分布RLは、様々な状態観測ノイズにまたがる期待に基づくものと比較して、より優れたトレーニングロバスト性を持つことが示された。
関連論文リスト
- Assessing the Impact of Distribution Shift on Reinforcement Learning
Performance [0.0]
強化学習(RL)は独自の課題に直面する。
点推定と訓練中の最適方針への収束を成功させるプロットの比較は、実験装置への過度な適合や依存を阻害する可能性がある。
本稿では,分散シフト下でのRLアルゴリズムのロバスト性を評価するための評価手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T23:50:55Z) - May the Noise be with you: Adversarial Training without Adversarial
Examples [3.4673556247932225]
我々は、敵の訓練を受けずに敵の訓練を受けたモデルを得ることができるかという疑問を調査する。
提案手法は,訓練時にNNモデルの層にガウス雑音を埋め込むことによって固有性を取り入れる。
我々の研究は、全く異なるアプローチで敵の訓練を受けたネットワークに貢献し、敵の訓練と経験的に類似した堅牢性を持つ。
論文 参考訳(メタデータ) (2023-12-12T08:22:28Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Adversarial robustness of amortized Bayesian inference [3.308743964406687]
償却ベイズ推論は、当初シミュレーションデータ上の推論ネットワークのトレーニングに計算コストを投資することを目的としている。
観測対象のほとんど認識不能な摂動は、予測された後部および非現実的な後部予測標本に劇的な変化をもたらす可能性があることを示す。
本研究では,条件密度推定器のフィッシャー情報をペナライズした計算効率の高い正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-24T10:18:45Z) - Stochastic optimal well control in subsurface reservoirs using
reinforcement learning [0.0]
本稿では,パラメータの不確実性分布の最適制御を行うためのモデルフリー強化学習フレームワークのケーススタディを提案する。
原理的には、RLアルゴリズムは数値報酬信号の最大化のために最適な行動ポリシーを学習することができる。
提案手法は,2つの水面流動試験ケースに対して,2つの最先端RLアルゴリズム,PPO,A2Cを用いて数値計算を行った。
論文 参考訳(メタデータ) (2022-07-07T17:34:23Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation [12.415463205960156]
モデルフリー深部強化学習(RL)アルゴリズムでは、ノイズ値推定を用いて政策評価と最適化を監督し、サンプル効率を損なう。
RLで発生するノイズ管理における不確実性の原因を系統的に分析する。
本稿では,2つの相補的不確実性推定手法がQ値と環境の両方を考慮し,ノイズ管理の負の影響を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-01-05T15:46:06Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Evaluating probabilistic classifiers: Reliability diagrams and score
decompositions revisited [68.8204255655161]
確率的に統計的に一貫性があり、最適に結合し、再現可能な信頼性図を自動生成するCORP手法を導入する。
コーパスは非パラメトリックアイソトニック回帰に基づいており、プール・アジャセント・ヴァイオレータ(PAV)アルゴリズムによって実装されている。
論文 参考訳(メタデータ) (2020-08-07T08:22:26Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。