論文の概要: Distributional Robustness and Regularization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2003.02894v2
- Date: Tue, 14 Jul 2020 06:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 07:02:27.759401
- Title: Distributional Robustness and Regularization in Reinforcement Learning
- Title(参考訳): 強化学習における分布ロバスト性と正規化
- Authors: Esther Derman and Shie Mannor
- Abstract要約: 経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
- 参考スコア(独自算出の注目度): 62.23012916708608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributionally Robust Optimization (DRO) has enabled to prove the
equivalence between robustness and regularization in classification and
regression, thus providing an analytical reason why regularization generalizes
well in statistical learning. Although DRO's extension to sequential
decision-making overcomes $\textit{external uncertainty}$ through the robust
Markov Decision Process (MDP) setting, the resulting formulation is hard to
solve, especially on large domains. On the other hand, existing regularization
methods in reinforcement learning only address $\textit{internal uncertainty}$
due to stochasticity. Our study aims to facilitate robust reinforcement
learning by establishing a dual relation between robust MDPs and
regularization. We introduce Wasserstein distributionally robust MDPs and prove
that they hold out-of-sample performance guarantees. Then, we introduce a new
regularizer for empirical value functions and show that it lower bounds the
Wasserstein distributionally robust value function. We extend the result to
linear value function approximation for large state spaces. Our approach
provides an alternative formulation of robustness with guaranteed finite-sample
performance. Moreover, it suggests using regularization as a practical tool for
dealing with $\textit{external uncertainty}$ in reinforcement learning methods.
- Abstract(参考訳): 分散ロバスト最適化(DRO)は、分類と回帰におけるロバスト性と正規化の等価性を証明し、正規化が統計的学習においてうまく一般化する解析的理由を与える。
DROのシーケンシャルな意思決定への拡張は、ロバストなマルコフ決定プロセス(MDP)設定を通じて$\textit{external uncertainty}$を克服するが、結果の定式化は特に大域において解決が難しい。
一方、強化学習における既存の正規化法は確率性のため$\textit{internal uncertainty}$のみを扱う。
本研究は,強固なmdpと正則化の二重関係を確立することにより,強固な強化学習を促進することを目的としている。
本稿では,分散ロバストなMPPを導入し,非サンプル性能を保証することを証明する。
次に,経験値関数に対する新しい正規化器を導入し,ワッサースタイン分布ロバストな値関数の下限を示す。
結果は大きな状態空間に対する線形値関数近似に拡張する。
提案手法は,有限サンプル性能を保証したロバストネスの定式化を提供する。
さらに、強化学習法で$\textit{external uncertainty}$を扱うための実用的なツールとして正規化を使うことを提案する。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes [37.15580574143281]
オフライン強化学習(RL)
本稿では、オフラインデータを用いた全変動距離を特徴とする不確実性を伴う分布安定線形マルコフ決定過程(MDP)のサンプル複雑性について考察する。
我々は悲観的なモデルに基づくアルゴリズムを開発し、最小限のデータカバレッジ仮定の下でそのサンプルの複雑さを確立する。
論文 参考訳(メタデータ) (2024-03-19T17:48:42Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Federated Distributionally Robust Optimization with Non-Convex
Objectives: Algorithm and Analysis [24.64654924173679]
Asynchronous Single-looP alternatIve gRadient projEction という非同期分散アルゴリズムを提案する。
新しい不確実性集合、すなわち制約付きD-ノルムの不確実性集合は、以前の分布を利用し、強靭性の度合いを柔軟に制御するために開発される。
実世界のデータセットに関する実証研究は、提案手法が高速収束を達成できるだけでなく、悪意のある攻撃だけでなく、データに対する堅牢性も維持できることを示した。
論文 参考訳(メタデータ) (2023-07-25T01:56:57Z) - Robust Reinforcement Learning in Continuous Control Tasks with
Uncertainty Set Regularization [17.322284328945194]
強化学習(Reinforcement Learning, RL)は、環境摂動下での一般化と堅牢性を欠いていると認識されている。
我々は $textbfU$ncertainty $textbfS$et $textbfR$egularizer (USR) という新しい正規化器を提案する。
論文 参考訳(メタデータ) (2022-07-05T12:56:08Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z) - From Majorization to Interpolation: Distributionally Robust Learning
using Kernel Smoothing [1.2891210250935146]
確率指標に基づく分布的ロバスト最適化(DRO)の関数近似の側面を検討する。
本稿では,滑らかな関数近似と畳み込みに基づく堅牢な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-16T22:25:18Z) - Distributional Robustness with IPMs and links to Regularization and GANs [10.863536797169148]
機械学習における分散に基づく不確実性セットを通して、ロバスト性を研究する。
F$-GANs を用いて, 対向生成モデルに光を当てるために, 実験結果を拡張した。
論文 参考訳(メタデータ) (2020-06-08T04:41:29Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。