論文の概要: State Entropy Regularization for Robust Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.07085v2
- Date: Sun, 29 Jun 2025 14:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.558294
- Title: State Entropy Regularization for Robust Reinforcement Learning
- Title(参考訳): ロバスト強化学習のための状態エントロピー正規化
- Authors: Yonatan Ashlag, Uri Koren, Mirco Mutti, Esther Derman, Pierre-Luc Bacon, Shie Mannor,
- Abstract要約: 状態エントロピー規則化は、構造的および空間的に相関した摂動に対するロバスト性を向上させることを示す。
このようなバリエーションは、伝達学習では一般的であるが、標準的な堅牢な強化学習法では見落とされがちである。
- 参考スコア(独自算出の注目度): 49.08983925413188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State entropy regularization has empirically shown better exploration and sample complexity in reinforcement learning (RL). However, its theoretical guarantees have not been studied. In this paper, we show that state entropy regularization improves robustness to structured and spatially correlated perturbations. These types of variation are common in transfer learning but often overlooked by standard robust RL methods, which typically focus on small, uncorrelated changes. We provide a comprehensive characterization of these robustness properties, including formal guarantees under reward and transition uncertainty, as well as settings where the method performs poorly. Much of our analysis contrasts state entropy with the widely used policy entropy regularization, highlighting their different benefits. Finally, from a practical standpoint, we illustrate that compared with policy entropy, the robustness advantages of state entropy are more sensitive to the number of rollouts used for policy evaluation.
- Abstract(参考訳): 状態エントロピー正則化は、強化学習(RL)における探索とサンプルの複雑さを実証的に示している。
しかし、その理論的な保証は研究されていない。
本稿では,状態エントロピー規則化が構造的および空間的に相関した摂動に対するロバスト性を向上させることを示す。
このような変化は、伝達学習では一般的であるが、通常、小さく、非相関な変化に焦点をあてる標準的なロバストなRL法によって見落とされがちである。
本稿では,これらのロバスト性の特徴を包括的に評価し,報酬と遷移の不確実性の下での正式な保証や,手法の動作が不十分な設定などについて述べる。
我々の分析の多くは、国家エントロピーと広く使われている政策エントロピー正規化とは対照的であり、それらの異なる利点を強調している。
最後に、現実的な観点から、政策エントロピーと比較して、状態エントロピーのロバスト性優位性は、政策評価に使用されるロールアウトの数により敏感であることを示す。
関連論文リスト
- The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Your Policy Regularizer is Secretly an Adversary [13.625408555732752]
報奨関数の最悪の摂動に対して,頑健性がヘッジングによって生じることを示す。
我々は、KLとα偏差正規化の下で、この頑健な対向報酬摂動を特徴付ける。
本稿では、最悪の報酬摂動に関する詳細な議論と、この堅牢性を示す直感的な経験例を紹介する。
論文 参考訳(メタデータ) (2022-03-23T17:54:20Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Regularized Policies are Reward Robust [33.05828095421357]
強化学習(RL)における政策の正規化の効果について検討する。
その結果,正規化目標が求める最適方針は,最悪の対向報酬の下で強化学習問題の最適方針であることがわかった。
以上の結果から,政策の正則化の効果を考察し,堅牢な報酬を通じて探索の理解を深めることができた。
論文 参考訳(メタデータ) (2021-01-18T11:38:47Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。